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O'Reilly Media,Inc. 介 绍 


O'Reilly Media 通 过 图 书 、 杂 志 、 在 线 服务 、 调 
得 研 究 和 会 议 等 方式 传播 创新 知识 。 目 1978 年 开 
始 ，OReilly 一 直 都 是 前 沿 发 展 的 见证 者 和 推动 
者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 
重要 的 技术 趋势 一 一 通过 放大 那些 “细微 的 信号 ”来 
刺激 社会 对 新 科技 的 应 用 。 作 为 技术 社区 中 活跃 的 
参与 者 ，O'Reilly 的 发 展 充满 了 对 创新 的 倡导 、 创 
造 和 发 扬 光 大 。 


O'Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 
书 ”， 创 建 第 一 个 商业 网 站 (GNN) ; 组 织 了 影响 
深远 的 开放 源 代 码 峰会 ， 以 至 于 开源 软件 运动 以 此 
命名 ; 创立 了 Make 林 志 ， 从 而 成 为 DIY 革 命 的 主要 
先锋 ;公司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 
的 纽带 。O'Reilly 的 会 议和 峰会 集聚 了 众多 超级 极 
客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 新 产业 
的 革命 性 思想 。 作 为 撤 术 人 士 获取 信息 的 选择 ， 
O'Reilly 现 在 还 将 先锋 专家 的 知识 传递 给 普通 的 计 
算 机 用 户 。 无 论 是 通过 书籍 出 版 ， 在 线 服务 或 者 面 
授课 程 ， 每 一 项 O'Reilly 的 产品 都 反映 了 公司 不 可 
动摇 的 理念 言 息 是 激发 创新 的 力量 。 








业界 评论 
“O'Reilly Radar 博 客 有 口 甸 人 碑 。” 
Wired 


“O'Reilly 和 凭借 一 系列 (真希 望 当初 我 也 想到 
了 ) 非凡 想法 建立 了 数 百 万 美元 的 业务 。” 














Business 2.0 











“O'Reilly Conference 是 聚集 关键 思想 领袖 的 绝 
对 典范 。?” 
一 CRN 


“一 本 O'Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 


需要 学 习 的 主题 。” 
Irish Times 


“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 
远 、 最 广阔 的 视野 并 且 切 实地 按照 Yogi Berra 的 建 
议 去 做 了 :“ “如果 你 在 路 上 遇 到 岔路 口 ， 走 小 路 
(岔路 ) 。 :回顾 过 去 Tim 人 似乎 每 一 次 都 选择 了 小 
路 ， 而 且 有 几 次 都 是 一 内 即 逝 的 机 会 ， 尽 管 大 路 也 





不 错 和 ;3 





Linux Journal 


译 者 序 


说 句 真 心 话 ， 我 非常 感谢 有 机 会 翻译 这 本 书 ， 
所 以 这 可 算是 第 一 篇 我 自己 真正 想 写 的 译 者 厅 。 里 
然 之 前 也 翻译 过 好 几 本 书 ， 但 都 没有 这 次 的 感情 这 
么 多 、 这 么 深 ! 这 本 书 是 我 化 精力 和 时 间 最 多 ， 同 
时 也 是 最 不 满意 的 一 本 ， 丈 古 因为 这 些 感悟 一 一 我 
始终 党 得 ， 如 果 再 多 点 时 间 的 话 ， 我 还 可 以 翻译 得 
更 好 。 


本 书 的 内 容 非常 好 ， 至 少 有 一 点 非常 好 一 一 集 
中 火力 对 付 特定 的 应 用 领域 。 市 面 上 介绍 编程 的 书 
多 如 牛 毛 ， 但 几乎 没有 几 本 书 是 针对 特定 应 用 场景 
的 。 这 本 书 对 新 手 来 说 绝对 是 福音 ， 因 为 每 看 完 一 
点 就 可 以 马上 将 自己 手 上 的 工作 直接 拿 来 当 例子 统 
于 ， 这 种 立 竺 见 影 的 学 习 效果 ， 绝 对 会 增强 新 手 的 
学 习 信心 。 


本 书 内 容 昌 好 ， 但 由 于 作者 是 编辑 界 牛 人 ， 平 
时 的 工作 肯定 不 少 ， 与 书 方面 的 精力 目 然 融 不 可 能 
太 多 。 加 之 美式 瑞 语 本 来 束 很 口语 化 ， 叶 致 尿 书 口 
水 话 非 常 多 ， 有 些 地 方 的 从 人 句 跟 绕口令 似 的。 我 在 
翻译 的 过 程 中 尽量 排除 了 一 些 ， 两 次 校 稿 的 过 程 中 
又 删除 或 大 幅 修 改 了 一 些 废话 ， 虽 然 这 种 “口水 
话 ” 还 存在 不 少 ， 但 至 少 不 会 对 阅读 造成 太 大 影 





























啊 。 如 果实 在 觉得 语言 不 通顺 ， 请 随时 发 邮件 给 
我 ， 欢 迎 大 家 的 善意 指导 
(tonytang1999@126.com) 。 


此 外 ， 在 翻译 的 过 程 中 有 有 现 了 不 少 小 问题 ， 用 
词 方面 的 错误 几乎 都 是 直接 改 的 〈 小 部 分 写 了 详 者 
注 ， 因 为 编辑 要 求 我 尽量 标 出 一 些 来 以 便 核对 ) ， 
而 其 他 错误 则 几乎 全 部 采用 详 者 注 的 形式 说 明 ， 还 
有 一 些 原 文 有 上 坚 义 或 不 详尽 的 地 方 也 通过 详 者 注 的 
形 却 给 出 了 简单 说 明 。 


本 书 共 12 章 ， 除 非 你 已 经 什么 都 会 了 ， 否 则 我 
建议 全 部 阅读 。 如 有 果 疫 有 学 过 Python， 建 议 先 看 看 
本 书后 面 的 附录 。 本 书 所 用 到 的 Python 编程 基础 知 
识 很 少 ， 所 以 只 看 那个 附录 完全 足够 了 了。 但 是 ， 如 
果 你 一 点 儿 编 程 基 础 都 没有 的 话 ， 可 能 需要 再 看 一 
本 有 关 Python 入 门 的 书 才 行 “比如 《Python 编程 实 
践 》 强 注 1) 。 

对 了 ， 还 有 几 件 事情 需要 说 明 一 下 : 

:每 草 的 代码 示例 最 好 在 一 个 IPython 会 话 中 完 

， 人 否则 可 能 会 出 现 一 些 不 必要 的 麻烦 ， 比 如 “xxx 


:如 条 在 Windows 里 面 用 IPython， 复 制 代码 的 








时 候 建议 使 用 cpaste， 这 个 不 多 解释 了 。 


.有 关 地 图 的 那 段 代码 可 能 需要 找 英 文 资 料 看 
才 行 ， 我 在 译 者 注 中 也 说 明了 。 这 可 能 需要 人 花 不 少 
时 间 和 精力 。 


:由 于 原文 各 种 说 法 不 统一 (甚至 包括 术 
语 ) ， 虽 然 我 尽量 做 了 统一 处 理 ， 但 由 于 精力 和 时 
间 有 限 ， 无 法 完全 修改 ， 所 以 译文 中 的 “xxx 接 受 
yyy”、“ 将 yyy 传 入 xxx” 说 的 都 是 “Xxx 函数 有 yyy 这 人 么 
个 参数 ”; “选项 *”“ 位 置 参 数 ”"、“ 关 键 字 参 
数 ”、“ 形 参 ”、“ 实 参 ” 说 的 都 是 “参数 ”...... 还 有 不 
少 ， 我 也 记 不 清 了 。 


…“ 人 金融 和 经 济 数据 ? 那 一 章 翻 译 得 非常 痛 兰 ， 因 
为 我 根本 不 了 解 那个 行业 ， 原 文 的 术语 又 不 标准 ， 
于 是 我 基本 都 是 用 wikipedia 和 bing 查 英文 资料 ， 看 
恒 之 后 再 到 baidu 找 中 文 资料 ， 并 最 终 确 定 译文 。 因 
此 ， 可 能 会 有 不 准确 的 情况 ， 如 果 您 发 现 了 ， 请 及 
时 通过 邮件 告诉 我 ， 万 分 感谢 。 


此 外 ， 我 必须 感谢 华 革 公司 的 编辑 们 。 非 常 感 
谢 他 们 能 够 给 我 这 样 的 机 会 ， 也 非 第 感谢 他 们 在 整 
个 过 程 中 给 予 我 的 各 种 文 持 和 理解 。 和 希望 以 后 还 能 
有 更 加 愉快 的 合作 。 











本 书 大 部 分 内 容 的 翻译 工作 以 及 全 书 的 统 稳 工 
作 由 我 完成 ， 参 与 本 书 翻译 校对 工作 的 还 有 黄豆 
庄 、 户 肩 民 、 蒲 巧 惠 、 陈 丽 丽 、 衣 元 江 、 张 杨 、 赵 
杰 、 吴 械 、 郭 敏 、 林 丹 、 王 跃 等 。 


由 于 译 者 水 平 有 限 ， 书 中 肯定 会 存在 一 些 错 误 
或 不 忌 之 处 ， 因 此 ， 在 阅读 过 程 中 发 现 有 任何 问 
题 ， 请 随时 联系 我 们 (tonytang1999@126.com) 或 
机 械 工 业 出 版 社 ， 我 们 将 及 时 更 新 本 书 的 勘误 表 。 
当然 ， 也 非常 欢迎 大 家 对 本 书 提出 宝 喧 的 意见 和 建 
议 。 














唐 学 杞 
2013 年 6 月 于 广州 


编 注 1: 本 书 已 由 机 械 工 业 出 版 社 出 版 ，ISBN:978-7- 
111-36478-8。 
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针对 科学 计算 领域 的 Python 开源 库 生 态 系 统 在 
过 去 10 年 中 得 到 了 飞速 发 展 。2011 年 底 ， 我 深 深 地 
感 党 到 ， 由 于 缺乏 集中 的 学 习 资源 ， 了 刚刚 接触 数据 
分 析 和 统计 应 用 的 Python 程序 员 举 步 维 艰 。 针 对 数 
据 分 析 的 关键 项 目 尤其 是 NumPy、matplotlib 和 
pandas) 已 经 很 成 熟 了 ， 也 束 是 说 ， 写 一 本 专门 介 
绍 它们 的 图 书 貌似 不 会 很 快 过 时 。 因 此 ， 我 下 定 决 
心 要 开始 这 样 的 一 个 写作 项 目 。 我 在 2007 年 刚 开始 
用 Python 进行 数据 分 析 工 作 时 残 硕 望 能 够 得 到 这 样 
一 本 书 。 硕 望 你 也 能 觉得 本 书 有 用 ， 同 时 也 希望 你 
J 的 那些 工具 高 效 地 运用 到 实际 工作 中 


本 书 的 约定 
本 书 使 用 了 以 下 排版 约定 : 
斜体 〈Italic ) 


用 于 新 术语 、URL、 电 子 邮 件 地 址 、 文 件 名 与 
文件 扩展 名 。 


等 宽 字 体 (Constant width ) 

















用 于 表明 程序 清单 ， 以 及 在 段 禾 中 引用 的 程序 
中 的 元 际 ， 如 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 
环境 变量 、 语 句 、 关 键 字 等 。 

等 宽 粗 体 (Constant width bold) 


用 于 表明 命令 ， 或 者 需要 读者 逐 字 输入 的 文本 








人 > 


内 容 
等 宽 斜 体 (Constant width italic) 


用 于 表示 需要 使 用 用 户 提供 的 值 或 者 由 上 下 文 
决定 的 值 来 痊 代 的 文本 和 内容。 


注意 : 代表 一 个 技巧 、 建 议 或 一 般 性 说 明 。 


警告 ， 代表 一 个 警告 或 注意 事项 。 








示例 代码 的 使 用 


本 书 提 供 代 码 的 目的 是 帮 你 快速 完成 工作 。 一 
般 情 况 下 ， 你 可 以 在 你 的 程序 或 文档 中 使 用 本 书 中 
的 代码 ， 而 不 必 取 得 我 们 的 许可 ， 除 非 你 想 复制 书 
中 很 大 一 部 分 代码 。 例 如 ， 你 在 编写 程序 时 ， 用 到 
了 本 书 中 的 几 个 代码 片段 ， 这 不 必 取 得 我 们 的 许 
可 。 但 大 将 OReilly 图 书 中 的 代码 制作 成 光盘 并 进 
行 出 售 或 传播 ， 则 需 获得 我 们 的 许可 。 引 用 示例 代 
码 或 书 中 内 容 来 解答 问题 无 需 许 可 。 将 书 中 很 大 一 
部 分 的 示例 代码 用 于 你 个 人 的 产品 文档 ， 这 需要 我 
们 的 许可 。 


如 果 你 引用 了 本 书 的 内 容 并 标明 版 权 归 属 声 
明 ， 我 们 对 此 表示 感谢 ， 但 这 不 是 必需 的 。 拨 权 归 
属 声明 通 各 包括: 标题、 作者 、 出 版 社 和 ISBN 号 ， 
例如 : "Python for Data Analysis by William Wesley 
MCKinney (O'eilly).Copyright 2013William Wesley 
McKinney,978-1-449-31979-3"。 


如 果 你 认为 你 对 示例 代码 的 使 用 已 经 超出 上 述 
泡 围 ， 或 者 你 对 是 否 需 要 获得 示例 代码 的 授权 还 不 
清楚 ， 请 随时 联系 我 们 : permissions@oreilly.com。 





























联系 我 们 


有 关 本 书 的 任何 建议 和 疑问 ， 可 以 通过 下 列 方 
式 与 我 们 取得 联系 : 


关 国 : 








O'eilly Media,Inc. 
1005Gravenstein Highway North 
Sebastopol,CA 95472 

中 国 : 


北京 市 西城 区 西直门 商 大 街 2 号 成 铭 大 厦 C 座 
807 室 (100035) 


奥 莱 利 技术 咨询 《北京 ) 有 限 公司 
我 们 会 在 本 书 的 网 页 中 列 出 勘误 表 、 示 例 和 其 


他 信息 。 可 以 通过 
http://oreil.ly/Python_for_Data_Analysis 访 问 该 页 








要 评论 或 询问 本 书 的 技术 问题 ， 请 发 送 电子 邮 


件 到 : 
bookquestions(@oreilly.com 


想 了 解 关 于 O'eilly 图 书 、 课 程 、 会 议和 新 闻 的 
更 多 信息 ， 请 访问 以 下 网 站 : 





http:/www.oreilly.com.cn 


http://www.oreilly.com 
还 可 以 通过 以 下 网 站 天 注 我 们 : 


我 们 在 Facebook 上 的 主 
页 ， http://facebook.com/oreilly 


我 们 在 Twitter 上 的 主 
页 ， http://twitter.com/oreillymedia 


我 们 在 YouTube 上 的 主 


页 : http://www.youtube.com/oreillymedia 


第 1 革 ”准备 工作 
本 书 主 要 内 容 


本 书 讲 的 是 利用 Python 进 行 数据 控制 、 处 理 、 
整理 、 分 析 等 方面 的 具体 细节 和 基本 要 点。 同时 ， 
它 也 是 利用 Python 进 行 科学 计算 的 实用 指南 (专门 
针对 数据 密集 型 应 用 ) 。 本 书 重 点 介绍 了 用 于 高 效 
解决 各 种 数据 分 析 问 题 的 Python 语言 和 库 。 本 书 没 
有 阐述 如 何 利用 Python 实现 具体 的 分 析 方 法 。 


当 书 中 出 现 “ 数 据 ? 时 ， 稳 葛 指 的 是 什么 呢 ? 主 
要 指 的 是 结构 化 数据 (structured data) ， 这 个 故意 
ee” 

中 : 




















:多维 数 组 〈 和 窍 阵 ) 。 


表格 型 数据 ， 其 中 各 列 可 能 是 不 同 的 类 型 
(字符 串 、 数 值 、 日 期 等 ) 。 比 如 保存 在 关系 型 数 
0 0 
些 数 据 。 


通过 天 键 列 ( 对 于 SQL 用 户 而 言 ， 束 古 主键 和 
外 键 ) 相互 联系 的 多 个 表 。 








-加 隅 平均 或 不 平均 的 时 间 序 列 。 


这 绝 不 是 一 个 完整 的 列表 。 大 部 分 数据 集 都 能 
被 转化 为 更 加 适合 分 析 和 建 模 的 结构 化 形式 ， 虽 然 
有 时 这 并 不 是 很 明显 。 如 果 不 行 的 话 ， 也 可 以 将 数 
据 集 的 特征 提取 为 某 种 结构 化 形式 。 例 如 ， 一 组 新 
辣 文章 可 以 被 处 理 为 一 张 词 频 表 ， 而 这 张 词 频 表 就 
可 以 用 于 情感 分 析 。 


大 部 分 电子 表格 软件 〈 比 如 Microsoft Excel， 
它 可 能 是 世界 上 使 用 最 广泛 的 数据 分 析 工 具 了 ) 的 
用 户 不 会 对 此 类 数据 感到 陌生 。 














为 什么 要 使 用 Python 进行 数据 分 析 


许 许多 多 的 人 包括 我 自己) 都 很 容易 爱 上 
Python 这 门 语 言 。 目 从 1991 年 诞生 以 来 ，Python 现 
在 已 经 成 为 最 受 欢 迎 的 动态 编程 语言 之 一 ， 其 他 还 
有 Perl、Ruby 等 。 由 于 拥有 大 量 的 Web 框 架 《 比 如 
Rails (Ruby) 和 Django (Python) ) ， 最 近 几 年 非 
第 流行 使 用 Python 和 Ruby 进 行 网 站 建设 工作 。 这 些 
语言 常 被 称 作 脚 本 (scripting) 语言 ， 因 为 它们 可 
以 用 于 编写 简短 而 粗糙 的 小 程序 〈 也 就 是 脚本 ) 。 
我 个 人 并 不 喜欢 “脚本 语言 ”这 个 术语 ， 因 为 它 好 像 
在 说 这 些 语言 无 法 用 于 构建 严 齐 的 软件 。 在 众多 解 
释 型 语言 中 ，Python 最 大 的 特点 是 拥有 一 个 巨大 而 
活跃 的 科学 计算 (scientific computing) 社区。 进入 
21 世 纪 以 来 ， 在 行业 应 用 和 学 术 研 究 中 采用 Python 
进行 科学 计算 的 势头 越 来 越 猛 。 


在 数据 分 析 和 交互 、 探 索性 计算 以 及 数据 可 视 
化 等 方面 ，Python 将 不 可 避免 地 接近 于 其 他 开源 和 
商业 的 领域 特定 编程 语言 /工具 ， 如 R、MATLAB、 
SAS、Stata 等 。 近 年 来 ， 由 于 Python 有 不 断 改 民 的 
库 〈 主 要 是 pandas) ， 使 其 成 为 数据 处 理 任 务 的 一 
大 普 代 方案 。 结 合 其 在 通用 编程 方面 的 强大 实力 ， 
我 们 完全 可 以 只 使 用 Python 这 一 种 语言 去 构建 以 数 
据 为 中 心 的 应 用 程序 。 

















把 Python 当做 镍 合剂 


作为 一 个 科学 计算 平台 ，Python 的 成 功 部 分 源 
于 其 能 够 轻松 地 集成 C、C++ 以 及 Fortran 代 人 码 。 大 
部 分 现代 计算 环境 都 利用 了 一 些 Fortran 和 C 库 来 实 
现 线性 代数 、 优 选 、 积 分 、 快 速 傅 里 时 变换 以 及 其 
他 诸如 此 类 的 算法 。 许 多 企业 和 国家 实验 军 也 利用 
Python 来 “ 粘 合 ”那些 已 经 用 了 30 多 年 的 遗留 软件 系 
统 。 


大 多 数 软件 都 是 由 两 部 分 代码 组 成 的 ; 少量 需 
要 占用 大 部 分 执行 时 间 的 代码 ， 以 及 大 量 不 经 钊 执 
行 的 “ 粘 合 剂 代码 ”。 烙 合剂 代码 的 执行 时 间 通 第 是 
微不足道 的 。 开 发 人 员 的 精力 几乎 都 是 伦 在 优化 计 
En 有 时 更 是 二 接 转 用 更 低级 的 语言 
《比如 C) 。 














最 这 这 几 年 ，Cython 项 目 《http://cython.org) 
己 经 成 为 Python 领域 中 创建 编译 型 扩展 以 及 对 接 
C/C++ 代码 的 一 大 途径 。 


解决 “两 种 语言 ?问题 
很 多 组 织 通常 都 会 用 一 种 类 似 于 领域 特定 的 计 


算 语 言 (如 MATLAB 和 R) 对 新 的 想法 进行 研究 、 
原型 构建 和 测试 ， 然 后 再 将 这 些 想 法 移植 到 某 个 更 





大 的 生产 系统 中 去 (可 能 是 用 Java、C# 或 C++ 编 写 
的 ) 。 人 们 逐渐 意识 到 ，Python 不 仅 适 用 于 研究 和 
原型 构建 ， 同 时 也 适用 于 构建 生产 系统 。 我 相信 越 
来 越 多 的 企业 也 会 这 样 看 ， 因 为 研究 人 员 和 工程 技 
术 人 员 使 用 同一 种 编程 工具 将 会 给 企业 种 来 非常 显 
著 的 组 织 效 益 。 


为 什么 不 选 Python 


虽然 Python 非常 适合 构建 计算 密集 型 科学 应 用 
程序 以 及 几乎 各 种 各 样 的 通用 系统 ， 但 它 对 于 不 少 
应 用 场景 仍然 力 有 不 逮 。 


由 于 Python 是 一 种 解释 型 编程 语言 ， 因 此 大 部 
分 Python 代码 都 要 比 用 编译 型 语言 《比如 Java 和 
C++) 编写 的 代码 运行 慢 得 多 。 由 于 程序 员 的 时 间 
通常 都 比 CPU 时 间 值 钱 ， 因 此 许多 人 也 愿意 在 这 里 
做 一 些 权 衡 。 但 是 ， 在 那些 要 求 延 到 非 间 小 的 应 用 
程序 中 例如 高 频 交 易 系 统 ) ， 为 了 尺 最 大 可 能 地 
优化 性 能 ， 耗 费时 间 使 用 诸如 C++ 这 样 更 低级 、 更 
低 生 产 率 的 语言 进行 编程 也 是 值得 的 。 


对 于 高 并 发 、 多 线程 的 应 用 程序 而 言 〈 尤 其 古 
拥有 许多 计算 密集 型 线程 的 应 用 程序 ) ，Python 并 
不 是 一 种 理想 的 编程 语言 。 这 是 因为 Python 有 一 个 
叫做 全 局 解释 器 锁 (Global Interpreter Lock，GIL) 














的 东西 ， 这 是 一 种 防止 解释 占 同 时 执行 多 条 Python 
字 节 码 指令 的 机 制 。 有 天“ 为 什么 会 存在 GIL?” 的 拉 
术 性 原因 超出 了 本 书 的 范围 ， 但 是 就 目前 来 看 ， 
GIL 并 不 会 在 短 时 间 和 内 消失 。 虽 然 很 多 大 数据 处 理 
应 用 程序 为 了 能 在 较 短 的 时 间 内 完成 数据 集 的 处 理 
工作 都 需要 运行 在 计算 机 集群 上 ， 但 是 仍 然 有 一 些 
情况 需要 用 单 进程 多 线程 系统 来 解决 。 


这 并 不 是 说 Python 不 能 执行 真正 的 多 线程 并 行 
代码 ， 只 不 过 这 些 代 码 不 能 在 单个 Python 进程 中 执 
行 而 已 。 比 如 说 ，Cython 项 目 可 以 集成 
OpenMP 一 个 用 于 并 行 计算 的 C 框 架 〉 以 实现 并 行 
处 理 循 环 进 而 大 幅度 提高 数值 算法 的 速度 。 




















重要 的 Python 库 

考虑 到 那些 还 不 太 了 解 Python 科 学 计算 生态 系 
统 和 库 的 读者 ， 下 面 我 先 对 各 个 库 做 一 个 简单 的 介 
纪 


一 口 o 
NumPy 


NumPy (Numerical Python 的 简称 ) 是 Python 科 
学 计算 的 基础 包 。 本 书 大 部 分 内 容 都 基于 NumPy 以 
及 构建 于 其 上 的 库 。 它 提供 了 以 下 功能 (不 限于 
此 ) : 

:快速 高 效 的 多 维 数组 对 象 ndarray。 


用 于 对 数组 执行 元 素 级 计算 以 及 直接 对 数组 
执行 数学 运算 的 冰 数 。 


“用 于 读 写 便 盘 上 基于 数组 的 数据 集 的 工具 。 
线性 代数 运算 、 伟 里 时 变换 ， 以 及 随机 数 生 











.用 于 将 C、C++、Fortran 代 码 集成 到 Python 的 


除了 为 Python 提供 快速 的 数组 处 理 能 
NumPy 在 数据 分 析 方 面 还 有 另外 一 个 主要 作用 ， 即 
作为 在 算法 之 则 传递 数据 的 容器 。 对 于 数值 型 数 
据 ，NumPy 数 组 在 存储 和 处 理 数据 时 要 比 内 置 的 
Python 数据 结构 高 效 得 多 。 此 外 ， 由 低级 语言 〈 比 
如 C 和 Fortran) 编写 的 库 可 以 直接 操作 NumPy 数 组 
中 的 数据 ， 无 需 进 行 任 何 数据 复制 工作 。 


pandas 


pandas 提 供 了 使 我 们 能 够 快速 便捷 地 处 理 结构 
化 数据 的 大 量 数 据 结构 和 函数 。 你 很 快 束 会 发 现 ， 
它 是 使 Python 成 为 强大 而 高 效 的 数据 分 析 环 境 的 重 
要 因 尼 之 一 。 本 书 用 得 最 多 的 pandas 对 象 是 
DataFrame， 它 是 一 个 面 同 列 (column-oriented) 的 
二 维 表 结构 ， 且 侣 有 行 标 和 列 标 : 


>>> frame 

total_bil1 tip SeX Smoker day time size 
1 16.99 1.01 Female No Sun Dinner 2 
2 10.34 1.66 Male No Sun Dinner 3 
3 21.01 3.5 Male No Sun Dinner 3 
4 23.68 3.31 Male No Sun Dinner 2 
5 24.59 3.61 Female No Sun Dinner 4 
6 25.2 4.71 Male No Sun Dinner 4 
7 8.77 2 Male No Sun Dinner 2 
8 26.88 3.12 Male No Sun Dinner 4 
9 15.04 1.96 Male No Sun Dinner 2 
10 14.78 3.23 Male No Sun Dinner 2 





pandas 兼 具 NumpPy 电 性 能 的 数组 计算 功能 以 及 


电子 表格 和 关系 型 数据 库 〈 如 SQL ) 灵活 的 数据 处 
理 功能 。 它 提供 了 复杂 精细 的 索引 功能 ， 以 便 更 为 
便捷 地 完成 重 塑 、 切 片 和 切 块 、 聚 合 以 及 选取 数据 
下 pandas 将 是 我 在 本 书 中 使 用 的 主要 工 

对 于 金融 行业 的 用 户 ，pandas 提 供 了 大 量 适 用 
于 金融 数据 的 高 性 能 时 间 序 列 功 能 和 工具 。 事 实 
上 ， 我 一 开始 就 是 想 把 pandas 设 计 为 一 款 适 用 于 金 
融 数 据 分 析 应 用 的 工具。 


对 于 使 用 R 语 言 进行 统计 计算 的 用 户 ， 肯 定 不 
会 对 DataFrame 这 个 名 字 感 到 陌生 ， 因 为 它 源 目 于 R 
的 data.frame 对 象 。 但 是 这 两 个 对 象 并 不 相同 。R 的 
data.frame 对 象 所 提供 的 功能 只 是 DataFrame 对 象 所 
提供 的 功能 的 一 个 子 集 。 虽 然 本 书 讲 的 是 Python， 
但 我 偶尔 还 是 会 用 R 做 对 比 ， 因 为 它 毕 苋 是 最 流行 
有 科 开源 数 据 分 析 环 境 ， 而 且 很 多 读者 都 对 它 很 熟 

















pandas 这 个 名 字 本 里 源 自 于 panel data 《面板 数 
据 ， 这 是 计量 经 济 学 中 关于 多 维 结构 化 数据 集 的 一 
个 术语 ) 以 及 Python data analysis (Python 数据 分 
析 ) 。 


matplotlib 


matplotlib 是 最 流行 的 用 于 绘制 数据 图 表 的 
Python 库 。 它 最 初 由 John D.Hunter (JDH) 创建 ， 
目前 由 一 个 庞大 的 开发 人 员 团 队 维护 。 它 非常 适合 
创建 出 版 物 上 用 的 图 表 。 它 跟 IPython 〈 马 上 就 会 讲 
到 ) 结合 得 很 好 ， 因 而 提供 了 一 种 非常 好 用 的 交互 
式 数 据 绘图 环境 。 绘 制 的 图 表 也 是 交互 式 的 ， 你 可 
以 利用 绘图 窗口 中 的 工具 栏 放 大 图 表 中 的 某 个 区 域 
或 对 整个 图 表 进 行 平移 浏览 。 














IPython 


IPython 是 Python 科学 计算 标准 工具 集 的 组 成 部 
分 ， 它 将 其 他 所 有 的 东西 联系 到 了 一 起 。 它 为 交互 
式 和 探索 式 计 算 提供 了 一 个 强健 而 高 效 的 环境 。 它 
是 一 个 增强 的 Python shell， 目 的 是 提高 编写 、 测 
试 、 调 试 Python 代 人 码 的 速度 。 它 主要 用 于 交互 式 数 
据 处 理 和 利用 matplotlib 对 数据 进行 可 视 化 处 理 。 我 
在 用 Python 编 程 时 ， 经 常会 用 到 IPython， 包 括 运 
行 、 调 试 和 测试 代码 。 

除 标准 的 基于 终端 的 IPython shell 外 ， 访 项目 
还 提供 了 : 


.一 个 类 似 于 Mathematica 的 HTML 笔记 本 ( 通 
过 Web 浏 览 器 连接 IPython， 稍 后 将 对 此 进行 详细 介 
绍 ) 。 








一 个 基于 Qt 框架 的 GUI 控 制 台 ， 其 中 含有 绘 
图 、 多 行 编辑 以 及 语法 高 亮 显 示 等 功能 。 

“用 于 交互 式 并 行 和 分 布 式 计算 的 基础 染 构 。 

我 将 在 一 章 中 专门 讲解 IPython， 详 细 地 介绍 其 
大 部 分 功能 。 强 烈 建 议 在 阅读 本 书 的 过 程 中 使 用 
IPython 。 











SclPy 


SciPy 是 一 组 专门 解决 科学 计算 中 各 种 标准 问 
题 域 的 包 的 集合 ， 主 要 包括 下 面 这 些 包 : 


scipy.integrate: 数值 积分 例 程 和 微分 方程 求解 
Eo 

scipy.linalg: 扩展 了 由 numpy.linalg 提 供 的 线 
性 代数 例 程 和 宅 阵 分 解 功能 。 


“scipy.optimize: 函数 优化 匿 《〈 了 最 小 化 医 ) 以 及 
根 得 找 算 法 。 


scipy.signal: 信号 处 理工 具 。 


scipy.sparse: 稀 豆 矩阵 和 稀 纹 线性 系统 求解 





售 。 


.Scipy.Special: SPECFUN (这 是 一 个 实现 了 许 
多 第 用 数学 函数 〈 如 伽 玛 函数 ) 的 Fortran 库 ) 的 包 
装 堪 。 


scipy.stats: 标准 连续 和 离散 概率 分 布 〈 如 窗 
度 函 数 、 采 样 句 、 连 续 分 布 函 数 等 ) 、 各 种 统计 检 
验方 法 ， 以 及 更 好 的 描述 统计 法 。 


scipy.weave: 利用 内 联 C++ 代 码 加 速 数组 计算 
的 工具 。 


NumPy 跟 SciPy 的 有 机 结合 完全 可 以 普 代 
MATLAB 的 计算 功能 (包括 其 插件 工具 箱 ) 。 


安 儿 和 设置 


由 于 人 们 用 Python 所 做 的 事情 不 同 ， 所 以 没有 
一 个 普 适 的 Python 及 其 插件 包 的 安装 方案 。 由 于 许 
多 读者 的 Python 科学 计算 环境 都 不 能 完全 满足 本 书 
的 需要 ， 所 以 接 下 来 我 将 详细 介绍 各 个 操作 系统 上 
的 安装 方法 。 我 建议 使 用 下 列 Python 安 装 包 之 一 : 


Enthought Python Distribution''*1， 来 自 
Enthought (http://continumm.io/downloads) 的 面 同 
科学 计算 的 Python 安装 包 。 包 括 EPDFree〈 免 费 的 
基本 厂 ， 带 有 NumPy、SciPy、matplotlib、Chaco 以 
及 IPython) 和 EPD Full (完整 版 ， 含 有 100 多 个 针 
对 各 种 领域 的 科学 计算 包 ) 。EPD Full 对 高 校 免 
费 ， 非 蜗 校 用 户 寅 要 缴纳 年 费 。 








-Python(x,y) 
(http://pythonxy.googlecode.com) : Windows 平 台 
上 人 免费 的 Python 科 学 计算 安装 包 。 


我 将 用 EPDFree 来 说 明 安 装 过 程 ， 当 然 如 果 有 
需要 的 话 ， 你 也 可 以 选择 其 他 产品 。 编 写本 书 时 ， 
EPD 用 的 是 Python 2.7， 今 后 可 能 会 有 些 变 动 。 安 装 
完毕 之 后 ， 你 将 可 以 用 到 下 面 这 些 包 : 


.Python 科学 计算 基础 库 : NumPy、SciPy、 
matplotlib 以 及 IPython。 这 些 都 包含 在 EPDFree 中 


O 〇 


:JPython Notebook 依 赖 项 : tornado 和 pyzmdq。 
这 些 也 都 包含 在 EPDFree 中 了 。 


.pandas 〈0.8.2 版 或 更 高 版 本 ) 。 


在 阅读 本 书 的 过 程 中 ， 你 可 能 还 需要 安装 : 
statsmodels、PyTables、PyQt (PySide 也 行 ) 、 
xlrd、]xml、basemap、Ppymongo 以 及 requests 等 〈 它 
们 被 用 在 不 同 的 示例 中 ) 。 现 在 芹 时 还 不 需要 安 效 
这 些 库 ， 我 建议 你 在 需要 的 时 候 再 安装 。 例 如 ， 在 
OS X 或 Linux 上 安装 PyQt 或 PyTables 可 能 会 很 
难 。 目 前 最 重要 的 事情 是 先 用 EPDFree 和 pandas 这 
种 最 小 配置 运行 起 来 再 说 。 


关于 各 个 Python 库 及 其 安装 文件 和 帮助 信息 ， 
请 访问 Python Package Index 〈 即 PyPL， 
http:/pypi.python.org) 。 你 还 可 以 在 这 里 找到 不 少 
新 的 Python 库 。 


注意 : 为 了 简单 起 见 ， 我 将 不 会 讨论 pip 
和 virtualenv 这 类 比较 复杂 的 环境 常理 工具 。 网 上 可 
以 找到 许多 介绍 这 些 工 具 的 优秀 教程 。 


























警告 : 有 些 用 户 可 能 会 对 诸如 IronPython、 
Jython、PyPy 之 类 的 Python 实现 感 兴趣 。 为 了 使 用 
本 书 所 介绍 的 那些 工具 ，“【〔 目 前 ) 束 需 要 使 用 基于 
C 的 标准 Python 解 释 器 (也 就 是 CPython)〉。 





Windows 


先 从 http://www.enthought.com 下 载 EPDFree 的 
安装 包 ， 它 可 能 是 一 个 名 字 类 似 于 epd_free-7.3-1- 
win-x86.msi 的 MSI 安 装 包 3。 运行 该 安装 包 并 接 
受 默 认 的 安装 位 置 C:\Python27。 如 果 你 之 前 在 这 里 
安装 过 Python， 可 能 需要 先 将 其 删除 (可 以 手工 聘 
除 ， 也 可 以 使 用 控制 面板 中 的 “添加 /或 删除 程序 ? 功 


能 ) 。 


接 下 来 ， 你 需要 验证 是 人 否 已 经 成 功 将 Python 添 

加 到 系统 路 径 ， 并 且 没 有 跟 早 期 安装 的 Python 版 本 
发 生 冲 突 。 首 先 ， 打 开 命 令 提示 和 从 (打开 “ 开 始 ” 羔 
单 ， 司 动 * 命 令 提 示 符 "应 用 程序 ， 即 cmd.exe) 。 输 
入 python 答 试 局 动 Python 解释 左 。 你 应 该 可 以 看 到 
与 已 安 沪 的 EPDFree 版 本 相 匹 配 的 一 段 消 县 : 

C:\Users\Wes>python 

Python 2.7.3 |EPD_free 7.3-1 (32-bit)| (default, Apr 12 2012, 


Type "credits", "demo" or "enthought" for more information. 
>>> 














如 果 你 看 到 的 是 其 他 版 本 的 EPD 信 息 或 根本 什 
么 也 看 不 到 ， 那 束 雷 要 清理 Windows 环 境 变 量 。 在 
Windows 7 上 ， 可 以 在 程序 搜索 框 中 输 
入 "environment variables"， 然 后 编辑 你 的 账户 下 的 
环境 变量 。 在 Windows XP 上 ， 需 要 进入 “控制 面 
板 ”- “系统 ”- “高 级 ” “环境 变量 ”。 在 弹出 窗口 中 
找到 Path 变 量 。 它 需要 含有 下 面 这 两 个 以 分 号 隔 开 
的 目录 路 径 : 


C:\Python27;C:\Python27\Scripts 


如 果 你 之 前 安 站 了 其 他 版 本 的 Python， 那 就 需 
要 删除 系统 和 用 户 Path 变 量 中 与 之 相关 的 一 切 路 
径 。 修 改 路 径 之 后 ， 需 要 重 司 命令 提示 符 才 能 使 修 
EL 


能 够 在 命令 提示 符 中 成 功 司 动 Python 之 后 ， 融 
该 安装 pandas 了 了 。 最 简 蛙 的 办 法 就 是 直接 到 
http://pypi.python.org/pypi/pandas 下 载 合适 的 二 进 制 
安装 包 。 对 于 EPDFree， 应 该 选择 pandas- 
0.9.0.win32-py2.7.exe。 将 其 安装 好 之 后 ， 接 下 来 启 
动 IPython 来 验证 一 下 是 不 是 万 事 俱 备 了 : 引入 
pandas， 然 后 绘制 一 个 人 简单 的 matplotlib 图 形 。 

C:\Users\Wes>ipython --pylab 


Python 2.7.3 |EPD_ free 7.3-1 (32-bit)| 
Type "copyright", "credits" or "license" for more information. 























IPython 0.12.1 -- An enhanced Interactive Python. 


? -> Introduction and overview of IPython's features ， 

%quickref -> Quick reference. 

help -> Python's own help system. 

object? -> Details about 'object', use 'object??' for extra 

Welcome to pylab, a matplotlib-based Python environment [backe 
In [1]: import pandas 


In [2]: plot(arange(10)) 


如 条 成 功 ， 就 不 会 出 现 错误 信息 ， 而 且 会 弹出 
一 个 绘图 窗口 。 还 可 以 输入 下 列 指令 于 二 4 来 检查 
IPython HTML notebook 是 否 安装 成 功 : 


$ ipython notebook --pylab=inline 





警告 : 如果 你 是 在 Windows 上 使 用 IPython 
notebook 应 用 程序 而 且 通 党 使 用 的 是 Internet 
Explorer 的 话 ， 那 你 可 能 需要 改 用 Mozilla Firefox 或 
Google Chrome 了 5。 


Windows 上 的 EPDFree 只 有 32 位 版 本 。 如 果 需 

要 使 用 64 位 版 本 ， 最 简单 的 办 法 就 是 直接 使 用 EPD 
Full 6。 如 果 你 不 想 购 买 EPD 订 阅 且 愿 意 自己 动 
手 一 步 步 安 装 ， 可 以 试 试 由 加 州 大 学 欧文 分 校 的 
Christoph Gohlke 提 供 的 非 官 方 安 装 包 

(http://www.lfd.uci.edu/~gohlke/pythonlibs/) ， 它 
0 
Ee 





EOSX 











在 OS X 上 ， 首 先 需要 安装 Xcode， 它 含有 竺 果 
的 软件 开发 工具 套件 。 我 们 所 需 的 部 分 是 gcc C 和 
C++ 编译 句 。Xcode 安 装 包 可 以 在 随 计算 机 发 布 的 
OS X 安 装 光盘 中 找到 ， 也 可 以 直接 从 毕 果 公司 的 网 
站 上 下 载 。 


装 好 Xcode 之 后 ， 到 "Applications ~” Utilities" 去 
启动 终端 (Terminal.app) 。 输 入 gcc 并 按 回 车 键 。 
你 将 会 看 到 如 下 信息 : 


$ gcc 
i686-apple-darwin10-gcc-4.2.1: no input files 


现在 就 该 安装 EPDFree 了 。 下 载 一 个 名 为 
epd_free-7.3-1-macosx-i386.dmg 的 人 厂 盘 镜像 文件 。 
双击 该 .dmg 文 件 以 将 其 挂 载 到 系统 ， 然 后 双击 其 中 
的 .mpkg 文 件 来 运行 安装 程序 。 


安 竣 文件 局 动 之 后 ， 会 目 动 将 EPDFree 可 执行 
文件 的 路 径 添 加 到 你 的 .bash_profile 文 件 中 。 该 文件 
位 于 /Users/your_uname/.bash_profile: 





# Setting PATH for EPD_ free-7.3-1 
PATH="/Library/Frameworks/Python.framework/Versions/Current/bi 
export PATH 


如 果 在 后 续 步 又 中 过 到 任何 问题 ， 首 先 应 该 检 
本 看 看 是 个 需要 将 上 面 那个 
目录 添加 进去 。 


现在 就 该 安装 pandas 了 。 在 终端 中 执行 下 面 这 


多 

















$ sudo easy_install pandas 

Searching for pandas 

Reading http://pypi.python.org/simple/pandas/ 

Reading http://pandas.pydata.org 

Reading http://pandas.sourceforge.net 

Best match: pandas 0.9.0 

Downloading http://pypi.python.org/packages/source/p/pandas/pa 
Processing pandas-0.9.0.zip 

Writing /tmp/easy_install-H5mIX6/pandas-0.9.0/setup.cfg 
Running pandas-0.9.0/setup.py -dq bdist egg --dist-dir /tmp/eas 
pandas-0.9.0/egg-dist-tmp-RhLGOz 

Adding pandas 0.9.0 to easy-install.pth file 


Installed /Library/Frameworks/Python.framework/Versions/7.3/1i 
site-packages/pandas-0.9.0-py2.7-macosx-10.5-i386.egg 
Processing dependencies for pandas 

Finished processing dependencies for pandas 


为 了 验证 是 侣 一 切 正 彰 ， 我 们 以 Pylab 模 式 .局 
动 IPython， 然 后 尝试 加 载 pandas 并 绘制 一 张 图 片 : 


$ ipython --pylab 

22:29 ~/VirtualBox VMs/WindowsXP $ ipython 

Python 2.7.3 |EPD_free 7.3-1 (32-bit)| (default, Apr 12 2012, 
Type "copyright", "credits" or "license" for more information. 


sen 0.12.1 -- An enhanced Interactive Python. 
-> Introduction and overview of IPython's fea 
a -> Quick reference. 
help -> Python's own help system. 
object? -> Details about 'object', use 'object??' for 


Welcome to pylab, a matplotlib-based Python environment [backe 
For more information, type 'help(pylab)'. 


In [1]: import pandas 


In [2]: plot(arange(10)) 


如 条 成 功 ， 将 会 弹出 一 个 绘图 窗口 ， 其 中 男 的 
是 一 条 直线 。 


GNU/Linux 


注意 : ”有些 (但 不 是 全 部 ) Linux 产 品目 市 的 
Python 包 版 本 较 新 ， 且 可 以 通过 内 置 的 包 管 理工 共 
(如 apt) 进行 安 闭 。 我 将 详细 讲解 EPDFree 的 安 凌 
步 又， 因为 它 在 不 同 的 Linux 发 行 版 之 间 是 差不多 
的 。 


对 于 不 同 的 Linux 产 品 ， 有 具体 的 安装 过 程 会 有 
一 些 不 同 ， 我 这 里 将 以 基于 Debian 的 GNU/Linux 系 
统 〈 如 Ubuntu 和 Mint) 为 例 来 进行 讲解 。 除 
EPDFree 之 外 ， 其 他 的 安装 过 程 跟 OS X 差 不 多 。 其 
安装 包 是 一 个 只 能 在 终端 中 执行 的 shell 脚 本 。 根 据 
系统 是 32 位 还 是 64 位 ， 需 要 相应 地 安装 x86 版 (32 
位 ) 或 x86_64 版 (64 位，。 然 后 你 将 会 得 到 一 个 名 
为 epd_free-7.3-1-rh5-x86_64.sh 的 文件 。 通 过 bash 执 
行 该 脚本 即 可 开始 安装 : 











$ bash epd_ free-7.3-1-rh5-Xx86_ 64.sh 


在 接受 了 许可 协议 之 后 ， 你 需要 选择 EPDFree 
文件 的 存放 位 置 。 我 建议 将 这 些 文件 安装 在 你 的 
home 目 录 中 ， 比 如 /home/wesm/epd〈 将 wesm 蔡 换 
为 你 的 用 户 名 即 可 ) 。 








安装 完毕 之 后 ， 你 需要 将 EPDFree 的 bin 目 录 还 
加 到 $PATH 变 量 中 去 。 如 果 你 用 的 是 bash shell 〈 比 
biUbuntu 默 认 用 的 束 是 这 个 ) ， 则 在 你 的 .bashrc 中 
加 上 下 面 这 名 路径 添加 指令 : 


export PATH=/home/wesm/epd/bin:$PATH 








很 明显 ， 雷 要 将 /home/wesm/epd/ 蔡 换 为 你 所 使 
用 的 安装 目录 。 做 完 这 些 事情 之 后 ， 你 可 以 司 动 一 
个 新 的 终端 进程 ， 也 可 以 通过 source ~/.bashrc 重 局 
你 的 .bashrc。 








接 下 来 还 需要 用 到 一 个 C 编 详 器 《比如 gcc) 。 
许多 Linux 产 品 都 含有 gcc， 但 有 些 则 没有 。 在 
Debian 系 统 中 ， 可 以 执行 下 面 这 条 指令 来 安装 gcc: 


sudo apt-get install gcc 
如 果 在 命令 行 中 输入 gcc， 就 可 以 看 到 : 


$ gcc 
gcc: no input files 


现在 可 以 安装 pandas 本 : 


$ easy_install pandas 


如 果 你 是 以 root 权 限 来 安装 EPDFree 的 ， 就 需 
要 在 命令 中 加 上 sudo 并 输入 sudo 或 root 密 码 。 使 用 
跟 OS Xx 相同 的 检测 方式 即 可 验证 是 否 一 切 正 常 。 


Python 2 和 Python 3 


Python 社区 正在 慢 慢 地 从 Python 2 系列 解释 需 
过 渡 到 Python 3 系列 。 在 Python 3.0 问 世 以 前 ， 所 有 
的 Python 代 人 码 都 是 回 后 兼容 的 。 为 了 让 Python 语 言 
更 加 先进 ，Python 社 区 认为 作出 一 些 同 后 不 兼容 的 
修改 是 必要 的 。 


本 书 是 基于 Python 2.7 编 号 的 ， 这 是 因为 大 部 
分 Python 科学 计算 社区 还 没有 转 癌 Python 3。 好 消 
上 恩 是 ， 如 果 你 碰巧 正在 使 用 Python 3.2， 在 学 习 本 
书 的 过 程 中 一 般 也 不 会 遇 到 什么 厂 烦 。 


集成 开发 环境 (IDE ) 
当 有 人 问 我 “你 的 标准 开发 环境 是 怎样 的 > 时 ， 


我 几乎 总 是 回答 “ITPython 外 加 一 个 文本 编辑 器 ”。 我 
通常 都 在 IPython 中 编写 和 调试 程序 ， 而 且 它 可 以 交 








互 式 地 处 理 数据 ， 并 通过 可 视 化 的 方式 验证 某 个 数 
据 操 作 的 结果 是 否 正 确 。 诸 如 pandas 和 NumpPy 这 样 
的 库 也 可 以 轻松 便捷 地 在 这 个 shell 中 使 用 。 


但 是 相对 于 文本 编辑 器 ， 总 有 人 会 更 喜欢 
IDE。 因 为 它们 提供 了 许多 不 错 的 “代码 智能 化 ” 功 
能 ， 比 如 自动 完成 以 及 快速 获取 函数 和 类 的 文档 
等 。 你 可 以 试 试 下 面 这 些 : 


.Eclipse +PyDev 插 件 





.Python Tools for Visual Studio 〈 针 对 Windows 
ji 

‘PyCharm 

‘Spyder 

Komodo IDE 


译注 1: 已 经 更 名 为 Enthought Canopy。EPDFree 对 
应 的 是 Enthought ”Canopy Express。 相 比 来 说 
EPDFree 自 然 更 好 用 ， 不 过 为 了 保证 阅读 本 书 时 不 
过 到 麻烦 ， 建 议 按照 本 书 介 绍 法 操作 。 (其 实 束 算 
按照 书 上 的 说 明 操作 ， 一 样 会 遇 到 不 少 麻 烦 ， 我 会 
尽量 给 出 说 明 。 ) 

译注 2: 虽然 安装 过 程 不 大 轻松 ， 但 还 是 建议 后 面 





Sm 因为 它 可 以 使 你 在 安装 那些 库 的 时 候 更 轻 
人 愉快 。 

译注 3: 由 于 软件 版 本 更 新 较 快 ， 所 以 建议 到 网 上 
找 一 个 一 模 一 样 的 安装 包 ， 不 然 有 些 例子 的 结果 可 
能 会 跟 书 上 介绍 的 不 一 样 。 

译注 4:， 如 果 只 用 过 Windows， 要 注意 前 面 的 "$9"， 
这 是 Linux 或 UNIX 或 Mac 的 默认 命令 提示 符 。 本 书 
应 该 就 是 用 Mac 测 试 代码 的 ， 所 以 这 样 的 提示 符 不 
少 ， 后 面 代码 中 还 有 很 多 ， 请 读者 注意 。 

译注 5: 为 什么 ? 难道 作者 以 为 全 世界 人 民 都 还 在 
用 IE6 不 成 ? 译 者 使 用 IE9/IE10 均 无 压力 完成 。 
译注 6: 还 是 建议 使 用 32 位 版 本 的 ， 最 主要 的 原因 
仍然 是 “ 跟 原 书 一 致 ， 以 免 抓 狂 ”。 














社区 和 研讨 会 


除 搜索 引擎 之 外 ，Python 科 学 计算 邮件 列表 也 
是 很 不 错 的 资源 ， 其 上 的 问题 几乎 都 会 有 人 回答 。 
可 以 看 看 下 面 这 些 : 


.pydata: 这 是 一 个 Google Group 邮件 列表 ， 其 
中 的 问题 都 是 Python 数据 分 析 和 pandas 方 面 的 。 


.pystatsmodels: 针对 与 statsmodels 和 pandas 相 
天 有 的 问题 。 


numpy-discussion: 针对 与 NumPy 相 关 的 问 
题 。 

.Scipy-user: 针对 与 SciPy 和 Python 科学 计算 相 
天 的 问题 。 


我 没有 给 出 具体 的 URL， 因 为 它们 经 常 在 变 。 
通过 搜索 引擎 即 可 轻松 地 找到 它们 。 


全 世界 每 年 都 会 台 开 许多 针对 Python 程序 员 的 
研讨 会 。PyCon 和 EuroPython 分 别 是 美国 和 欧洲 最 
主要 的 Python 研讨 会 。 在 阅读 本 书 之 后 ， 如 果 你 越 
来 越 深入 地 用 Python 进行 数据 分 析 ， 残 可 以 在 SciPy 


和 EuroSciPy 这 两 个 面 回 科学 计算 的 Python 研讨 会 上 
找到 许多 “ 员 味 相投 的 同道 中 人 人 ”。 


使 用 本 书 


如 果 之 前 从 未 使 用 过 Python， 那 你 可 能 需要 先 
看 看 本 书 最 后 的 附录 部 分 ， 那 是 一 个 讲解 Python 的 
语法 、 语 言 特 性 以 及 内 置 数据 结构 〈 如 元 组 、 列 表 
和 字典 等 ) 的 简单 教程 。 这 部 分 内 容 可 以 看 做 本 书 
其 他 内 容 的 预备 知识 。 


本 书 首先 讲解 的 是 IPython 环 境 ， 然 后 简单 地 介 
绍 了 NumPy 的 关键 特性 ，NumPy 其 他 的 高 级 功能 则 
在 本 书 最 后 一 章 讲 解 。 然 后 我 介绍 了 pandas。 本 书 
其 余部 分 则 介绍 了 综合 运用 pandas、NumpPy 和 
matplotlib 〈 用 于 可 视 化 ) 进行 数据 分 析 的 相关 知 
识 。 我 尽量 以 增 量 的 形式 组 织 各 种 材料 ， 但 偶尔 还 
是 会 出 现 一 些 路 章节 的 知识 点 。 











各 章 的 数据 文件 及 相关 材料 存放 在 GitHub 上 ™ 


7 
http://github.com/pydata/pydata-book 


我 强烈 建议 你 下 载 这些 数 据 ， 然 后 用 各 章 所 介 
绍 的 工具 重 写 示 例 代 码 。 我 非常 欢迎 大 家 为 本 书 的 
git 库 提供 文稿 、 脚 本 、IPython 笔 记 本 以 及 其 他 各 种 
有 用 的 资源 。 





代码 示例 


本 书 大 部 分 代码 示例 的 输入 形式 和 输出 结果 都 
照 其 在 IPython shell 中 执行 时 的 样子 进行 排 
友 。 


In [5]: code 
Out[5]: output 


有 时 ， 为 了 简洁 明了 ， 多 个 代码 示例 将 会 并 排 


显示 。 这 些 代 人 码 示 例 应 该 从 无 到 右 进行 阅读 ， 且 应 
该 分 别 执行 。 





In [5]: code In [6]: code2 
Out[5]: output Out[6]: output2 
示例 数据 


各 章 的 示例 数据 都 存放 在 GitHub 上 : 
http://github.com/pydata/pydata-book。 下 载 这 些 数 据 
的 方法 有 二 : 使 用 git 版 本 控制 命令 行程 序 ， 直 接 从 
网 站 上 下 载 该 GitHub 库 的 zip 文 件 。 


为 了 让 所 有 示例 都 能 重 现 ， 我 尽量 使 其 包含 所 
有 必需 的 东西 ， 但 仍然 可 能 会 有 一 些 错 误 或 遗漏 。 
如 宋 出 现 这 种 情况 的 话 ， 请 给 我 发 邮件 : 


wesmckinn(Dgmail.com 。 





引入 惯例 


Python 社区 已 经 广泛 接受 了 一 些 利 用 模块 的 命 
名 惯例 : 
import numpy as np 


import pandas as pd 
import matplotlib.pyplot as plt 


也 就 是 说 ， 当 你 看 到 np.arange 时 ， 就 应 该 想到 
它 引 用 的 是 NumPy 中 的 arange 函 数 。 这 样 做 的 原因 
是 : 在 Python 软件 开发 过 程 中 ， 不 建议 直接 引入 类 
似 NumPy 这 种 大 型 库 的 全 部 内 容 (from numpy 
import *) 。 


行 语 


由 于 你 可 能 不 太 见 意 书 中 使 用 的 一 些 有 天 编 程 
和 数据 科学 方面 的 常用 术语 ， 所 以 我 在 这 里 先 给 出 
其 简单 定义 : 

数据 规整 (Munge/Munging/Wrangling) 8 

指 的 是 将 非 结 构 化 和 【或 ) 散乱 数据 处 理 为 结 
构 化 或 整洁 形式 的 整个 过 程 。 这 几 个 词 已 经 悄悄 成 
为 当今 数据 黑客 们 的 行 话 了 。Munge 这 个 词 跟 
Lunge 押 上 前]。 


伪 人 码 (Pseudocode) 


算法 或 过 程 的 “代码 式 ” 摘 述 ， 而 这 些 代 人 码 本 号 
并 不 是 实际 有 效 的 源 代码 。 





语法 糖 (Syntactic sugar) 


这 是 一 种 编程 语法 ， 它 并 不 会 带 来 新 的 特性 ， 
但 却 能 使 代码 更 易 读 、 更 易 写 。 


详 注 7:， 拿 到 书 丈 号 上 去 下 载 ， 一 来 是 防止 链接 不 
可 用 ， 二 来 是 数据 有 扣 大 ， 和 宽带 较 小 的 话 .….… 

译注 8: 本 来 想 不 翻译 的 ， 但 是 原文 中 这 几 个 到 处 
据 放 ， 搞 得 我 蝇 迫 症 焊 及， 直接 全 翻译 成 < 数据 规 





致谢 


如 果 没 有 那 一 大 帮 子 人 的 帮助 ， 我 想 我 是 写 不 
出 这 本 书 的 。 


先 说 说 OReily 的 工作 人 员 ， 我 非 癌 感谢 我 的 
编辑 Meghan Blanchette 和 Julie Steele， 他 们 在 整个 
写作 过 程 中 给 予 了 我 大 量 的 指导 。Mike Loukides 在 
本 书 的 提案 阶段 也 给 予 了 很 大 的 帮助 。 


主 多 人 癌 我 提供 了 大 量 的 拉 术 评论 。 具 体操 
说 ，Martin Blais 和 Hugh Brown 帮 助 我 改进 了 本 书 的 
示例 、 简 洁 性 以 及 内 容 组 织 形式 。James Long、 
Drew Conway、 Fernando Pérez、 Brian Granger、 
Thomas Kluyver、Adam Klein、Josh Klein、Chang 
She 以 及 Stéfan van der Walt 都 审阅 了 一 章 或 几 章 ， 
从 多 个 角度 给 出 了 一 些 重 要 的 反馈 。 


我 从 时 边 和 数据 社区 中 的 好 友 那 里 得 到 了 关于 
本 书 示 例 和 数据 集 的 大 量 灵 感 : Mike Dewar、Jeff 
Hammerbacher、James Johndrow、 Kristian Lum、 
Adam Klein、Hilary Mason、Chang She 以 及 Ashley 
Williams 。 


当然 我 还 要 感谢 开源 科学 计算 Python 社区 的 许 

















多 大 化 们 ， 是 他 们 建立 了 我 开发 工作 的 基础 ， 在 我 
编写 本 书 时 也 给 予 了 不 少 的 政 励 :IPython 核 心 团队 
(Fernando Pérez、Brian Granger、 Min Ragan- 
Kelly、Thomas Kluyver 等 ) 、John Hunter、Skipper 
Seabold、Travis Oliphant、Peter Wang、Eric 
Jones、 Robert Kern、Josef Perktold、Francesc 
Alted、Chris Fonnesbeck， 还 有 很 多 人 就 不 一 一 列 
举 了 。 另 外 还 有 许多 人 在 整个 过 程 中 也 给 予 了 大 量 
的 文 持 、 建 议和 或 励 : Drew Conway、Sean 
Taylor、 Giuseppe Paleologo、Jared Lander、David 
Epstein、John Krowas、Joshua Bloom、Den 
Pilsworth、John Myles-White， 还 有 许多 我 都 已 经 不 
记得 了 了 。 


还 要 感谢 我 整个 成 长 岁月 中 的 一 些 人 。 首 先 ， 
我 原来 在 AQR 公 司 的 同事 们 ， 他 们 在 我 从 事 pandas 
项 目 时 给 予 了 不 少 的 支持 : Alex Reyfman、Michael 
Wong、 Tim Sargen、 Oktay Kurbanov、 Matthew 
Tschantz、 Roni Israelov、Michael Katz、Chris 
Uga、Prasad Ramanan、Ted Square， 以 及 Hoon 
Kim。 然 后 是 我 的 导师 Haynes Miller 〈 矿 省 理工 学 
院 ) 和 Mike West〈 杜 克 大 学 ) 。 


私人 方面 ，Casey Dinkin 在 我 写 书 期 间 给 予 了 
大 量 的 关心 和 照顾 ， 并 私 受 了 我 一 切 的 情绪 流动， 
因为 我 在 过 了 预定 时 间 之 后 才 东 拼 西 竣 出 了 最 终 的 








手稿 。 然 后 是 我 的 父母 Bi 和 Kim， 从 我 很 小 时 他 们 
束 教 育 我 要 有 理想 ， 而 且 绝 不 退 而 求 其 次 。 


审 2 重 ”引言 


本 书 将 要 癌 你 介绍 的 是 用 于 高 效 处 理 数 据 的 


python 工具。 虽然 读者 各 目 工 作 的 最 终 目的 干 大 万 


列 ， 


旨 、 


所 





但 基本 都 需要 完成 以 下 几 个 大 类 的 任务 : 
与 外 界 进行 区 互 

读 写 各 种 各 样 的 文件 格式 和 数据 库 。 
准备 


对 数据 进行 清理 、 人 修整、 整合 、 规 范 化 、 重 
切片 切 块 、 变 形 等 处 理 以 便 进行 分 析 。 


转换 
对 数据 集 做 一 些 数 学 和 统计 运算 以 产生 新 的 数 


据 集 。 比 如 说 ， 根 据 分 组 变量 对 一 个 大 表 进 行 聚 
人、 


建 模 和 计算 
将 数据 跟 统计 模型 、 机 需 学 习 算法 或 其 他 计算 


工具 联系 起 来 。 


展示 
创建 交互 陈 的 或 静态 的 图 片 或 文字 摘要 。 


我 将 在 本 章 中 给 出 一 些 范例 数据 集 ， 并 讲解 我 
人 E 对 其 做 些 什么 。 这 些 例子 仅仅 是 为 了 提起 你 的 
兴趣 ， 因此 只 会 在 一 个 比较 高 的 层次 进行 讲解 。 如 
使 你 从 来 没 用 过 这 些 东西 也 没关系 ， 本 书后 续 的 章 
节 将 会 对 此 进行 非常 详细 的 讲解 。 在 这 些 代 人 码 示例 
中 ， 你 可 以 看 到 诸如 In [15]: 之 类 的 输入 输出 提示 
人 和 从， 它们 来 自 IPython shell。 

















来 和 目 bit.jy 的 1.usa.gov 数 气 


2011 年 ，UREL 缩 短 服 务 bit.ly 跟 美国 政府 网 站 
usa.gov 合 作 ， 提 供 了 一 份 从 生成 .gov 或 .mil 短 链接 
的 用 户 那 里 收集 来 的 匿名 数据 “1。 直 到 编写 本 书 
时 为 止 ， 除 实时 数据 “之 外 ， 还 可 以 下 载 文本 文 
件 形式 的 每 小 时 快照 二 1。 


以 每 小 时 快照 为 例 ， 文 件 中 各 行 的 格式 为 
JSON 〈 即 JavaScript Object Notation， 这 是 一 种 常用 
的 Web 数 据 格式 ) 。 例 如 ， 如 果 我 们 只 读 取 某 个 文 
I - 行 ， 那 么 你 所 看 到 的 结果 应 该 是 下 面 这 


In [15]: path = 'ch02/usagov_bitly data2012-03-16-1331923249.t 








In [16]: open(path). readline() 
Out[16]: '{ "a": "Mozilla\\/5.0 (Windows NT 6.1; WOowW64) Applevw 


Python 有 许多 内 置 或 第 三 方 模块 可 以 将 JSON 字 
符 串 转换 成 Python 字典 对 象 。 这 里 ， 我 将 使 用 json 
J 己 经 下 载 好 的 数据 文 


import json 
path = 'ch02/usagov_bitly_data2012-03-16-1331923249.txt' 
records = [json.loads(line) for line in open(path )] 





你 可 能 之 前 没 用 过 Python， 解 释 一 下 上 面 最 后 
那 行 表达 式 ， 它 叫做 列表 推导 式 (ist 
comprehension) ， 这 是 一 种 在 一 组 字符 串 (或 一 组 
别 的 对 象 》 上 执行 一 条 相同 操作 (如 json.loads) 的 
简洁 方式 。 在 一 个 打开 的 文件 句柄 上 进行 迭代 即 可 
获得 一 个 由 行 组 成 的 序列 。 现 在 ，records 对 象 束 成 
为 一 组 Python 字典 了 : 

In [18]: records[0] 
Out[18]: 


{U'a': U'Mozilla/5.0 (Windows NT 6.1; WOwW64) ApplewebKit/535.1 
U'Cc': U'US', 











uU'cy': U'Danvers', 

u'g': U'A69qOVH", 

uU'gr': Uu'MA', 

u'h': u'wfLQtf", 

u'hc': 1331822918, 

u'hh': u'1i.usa.gov', 

u'l1': u'orofrog', 

u'll': [42.576698, -70.954903], 

u'nk': 1, 

u'r': u'http://www.facebook.com/1/7AQEFzjSi/1.usa.gov/wfLQtf', 
uU't': 1331923247, 

uU'tz': Uu'America/New York', 

U'u': u'http://www.ncbi.nlm.nih.gov/pubmed/22415991'} 


注意 ，Python 的 索引 是 从 0 开始 的 ， 不 像 其 他 
东 些 语言 是 从 1 开始 的 〈 如 R) 。 现 在 ， 只 要 以 字符 
串 的 形式 给 出 想 要 访问 的 键 就 可 以 得 到 当前 记录 中 
相应 的 值 了 : 


In [19]: records[0O]['tz'] 
Out[19]: u'America/New_York' 








单 引号 前 面 的 u 表 示 unicode (一 种 标准 的 字符 
串 编码 格式 ) 。 注 意 ，IPython 在 这 里 给 出 的 是 时 区 
的 字符 串 对 象形 式 ， 而 不 是 其 打印 形式 : 


In [20]: print records[0]['tz'] 
America/New_York 


用 纯 Python 代 码 对 时 区 进行 计数 


假设 我 们 想 要 知道 该 数据 集中 最 第 出 现 的 是 哪 
个 时 区 《 即 tz 字 段 ) ， 得 到 答案 的 办 法 有 很 多 。 首 
先 ， 我 们 用 列表 推导 式 取出 一 组 时 区 : 


In [25]: time zones = [rec['tz'] for rec in records] 


KeyError Traceback (most recent call last) 
/home/wesm/book_scripts/whetting/<ipython> in <module>() 
----> 1 time zones = [rec['tz'] for rec in records] 


KeyError: 'tz' 


曼 ! 原来 并 不 是 所 有 记录 都 有 时 区 字段 。 这 个 
好 办 ， 只 需 在 列表 推导 式 末 尾 加 上 一 个 if "tz'in rec 判 
叮 即 可 : 


In [26]: time zones = [rec['tz'] for rec in records if 'tz' in 





In [27]: time zones[:10] 
Out[27]: 
[u'America/New_ York ' ， 
u'America/Denver', 
u'America/New_York', 
u'America/Sao_ Paulo', 
u'America/New_York', 


u'America/New_York', 
uU'Europe/Warsaw', 
U7 


只 看 前 10 个 时 区 ， 我 们 发 现 有 些 是 未 知 的 〈 即 
空 的 ) 。 虽 然 可 以 将 它们 过 滤 择 ， 但 现在 暂时 先 留 
着 。 接 下 来 ， 为 了 对 时 区 进行 计数 ， 这 里 介绍 两 个 
办 法 : 一 个 较 难 《只 使 用 标准 Python 库 ) ， 另 一 个 
较 简 单 〈 使 用 pandas) 。 计 数 的 办 法 之 一 是 在 遇 历 
时 区 的 过 程 中 将 计数 值 保 存在 字典 中 : 


def get_counts(sequence): 
counts = {} 
for x in sequence: 
if x in counts: 
counts[x] += 1 
else: 
counts[x] = 1 
return counts 


如 果 非 常 了 解 Python 标 准 库 ， 那 么 你 可 能 会 将 
代码 写 得 更 简洁 一 些 : 


from collections import defaultdict 


U 
U! 




















def get_counts2(sequence): 
counts = defaultdict(int) # 所 有 的 值 均 会 被 初始 化 为 0 
for x in sequence: 
counts[x] += 1 
return counts 


我 将 代码 写 到 函数 中 是 为 了 获得 更 局 的 可 重用 
性 。 要 用 它 对 时 区 进行 处 理 ， 只 需 将 time_zones 传 








入 印 可 : 


In [31]: counts = get_counts(time_zones ) 


In [32]: counts['America/New_ York'] 
Out[32]: 1251 


In [33]: len(time zones) 
Out[33]: 3440 


如 果 想 要 得 到 前 10 位 的 时 区 及 其 计数 值 ， 我 们 
需要 用 到 一 些 有 关 字 典 的 处 理 技 巧 : 


def top_counts(count_dict, n=10): 
value_key_pairs = [(count, tz) for tz, count in count_dict 
value_key_pairs,. sort() 
return value key_pairs[-n:] 


现在 我 们 就 可 以 : 


In [35]: top_counts(counts) 

Out[35]: 

[(33, u'America/Sao_Paulo'), 
(35，U'Europe/Madrid ' )， 
(36，U'Pacific/ZHonolulu ' )， 
(37, U'Asia/Tokyo'), 

(74, uU'Europe/London'), 

(191, u'America/Denver'), 
(382, Uu'America/Los_ Angeles'), 
(400, u'America/Chicago'), 
(521, u''), 
(1251，U'America/New York ' )] 


你 可 以 在 Python 标准 库 中 找到 
collections.Counter 类 ， 它 能 使 这 个 任务 变 得 更 人 简 


单 : 





In [49]: from collections import Counter 
In [50]: counts = Counter(time_ zones) 


In [51]: counts.most_common(10) 

Out[51]: 

[(u'America/New_ York', 1251), 
(u'', 521), 
(u'America/Chicago', 400), 
(u'America/Los Angeles', 382), 
(u'America/Denver', 191), 
(u'Europe/London', 74), 
(u'Asia/Tokyo', 37), 
(u'Pacific/Honolulu', 36), 
(u'Europe/Madrid', 35), 
(u'America/Sao_Paulo', 33)] 


用 pandas 对 时 区 进行 计数 


DataFrame 是 pandas 中 最 重要 的 数据 结构 ， 它 用 
于 将 数据 表示 为 一 个 表格 。 从 一 组 原始 记录 中 创建 
DataFrame 是 很 简单 的 : 


In [289]: from pandas import DataFrame, Series 
In [290]: import pandas as pd; import numpy as np 
In [291]: frame = DataFrame(records) 


In [292]: frame 

Out[292]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 3560 entries, 0 to 3559 
Data columns: 


_heartbeat_ 120 non-null values 
a 3440 non-null values 
al 3094 non-null values 
C 2919 non-null values 
cy 2919 non-null values 


g 3440 non-null values 


View ) 


法 ， 


gr 2919 non-null 
h 3440 non-null 
hc 3440 non-null 
hh 3440 non-null 
kw 93 non-null va 
| 3440 non-null 
了 2919 non-null 
nk 3440 non-null 
r 3440 non-null 
t 3440 non-null 
tz 3440 non-null 
U 3440 non-null 


dtypes: float64(4), object(14) 


In [293]: frame['tz"'][:10] 
Out[293]: 
America/New_York 
America/Denver 
America/New_York 
America/Sao_Paulo 
America/New_York 
America/New_York 
Europe/Warsaw 


过 Oo”=~OOA 和 上 wm 上 口 


ame: tz 


Values 
Values 
Values 
Values 
Jues 

values 
values 
values 
values 
values 
values 
values 





这 里 frame 的 输出 形式 是 摘要 视图 (summary 


， 主 要 用 于 较 大 的 DataFrame 对 象 。 
frame['tz'] 所 返回 的 Series 对 象 有 一 
该 方法 可 以 让 我 们 得 到 所 需 的 信息 : 


个 value_counts 方 


In [294]: tz_counts = frame['tz"'].value counts() 


In [295]: tz_counts[:10] 


Out[295]: 

America/New_York 1251 
521 

America/Chicago 400 


America/Los_Angeles 382 


America/Denver 191 


Europe/London 74 
Asia/Tokyo 37 
Pacific/Honolulu 36 
Europe/Madrid 35 
America/Sao_Paulo 33 


然后 ， 我 们 想 利用 绘图 库 ( 即 matplotlib〉 为 这 
段 数据 生成 一 张 图 片 。 为 此 ， 我 们 先 给 记录 中 未 知 
或 缺失 的 时 区 填 上 一 个 丛 代 值 。f 旭 na 函数 可 以 蔡 换 
缺失 值 (NA) ， 而 未 知 值 〈 衬 字符 串 ) 则 可 以 通 
过 布尔 型 数组 索引 加 以 蔡 换 : 


In [296]: clean tz = frame['tz'].fillna('Missing') 





In [297]: clean tz[clean tz == ''] = 'Unknown' 
In [298]: tz_counts = clean_ tz.value counts() 


In [299]: tz_counts[:10] 
Out[299]: 


America/New_York 1251 
Unknown 521 
America/Chicago 400 
America/Los_Angeles 382 
America/Denver 191 
Missing 120 
Europe/London 74 
Asia/Tokyo 37 
Pacific/Honolulu 36 
Europe/Madrid 35 


利用 counts“ “3 对 象 的 plot 方 法 即 可 得 到 一 张 水 
平 条 形 图 “+4, 


In [301]: tz_counts[:10] .plot(kind='barh', rot=0) 


最 终结 果 如 图 2-1 所 示 。 我 们 还 可 以 对 这 种 数 
据 进 行 很 多 处 理 。 比 如 说 ，a 字 段 含 有 执行 URL 短 
缩 操 作 的 浏览 器 、 设 备 、 应 用 程序 的 相关 信息 : 


In [302]: frame['a'][1] 
Out[302]: UuU'GoogleMapS/VRochesterNY， 


In [303]: frame['a']1[50] 
Out[303]: u'Mozilla/5.0 (Windows NT 5.1; rv:10.0.2) Gecko/2015C 


In [304]: frame['a'][S1] 
Out[304]: u'Mozilla/5.0 (Linux; U; Android 2.2.2; en-us; LG-PS 





Europe/Madrid 












Europe/London 
Missing sa g OE 
America/Denver : : 
America/Los_Angeles 
America/Chicago 
Unknown 


America/New_York 








800 1400 


图 2-1: 1.usa.gov 示 例 数 据 中 最 第 出 现 的 时 区 


将 这 些 "ragent" 字 符 串 “5 中 的 所 有 信息 都 解析 
出 来 是 一 件 挺 邦 闷 的 工作 。 不 过 只 要 你 掌握 了 
Python 内 置 的 字符 串 函 数 和 正则 表达 式 ， 事 情 就 好 
办 了 。 比 如 说 ， 我 们 可 以 将 这 种 字符 串 的 第 一 市 
(与 浏览 占 大 至 对 应 ) 分 离 出 来 并 得 到 万 外 一 份 用 
户 行为 摘要 : 


In [305]: results = Series([x.split()[90] for x in frame.a.drorp 


1000 1200 











In [306]: results[:5] 
Out[306]: 

Mozilla/5.0 
1 GoogleMaps/RochesterNY 
2 Mozilla/4.0 
3 Mozilla/5.0 
4 Mozilla/5.0 


In [307]: results.value counts()[:8] 


Out[307]: 

Mozilla/5.0 2594 
Mozilla/4.0 601 
GoogleMaps/RochesterNY 121 
Opera/9.80 34 
TEST_INTERNET_AGENT 24 
GoogleProducer 21 
Mozilla/6.0 5 
BlackBerry8520/5.0.0.681 4 


现在 ， md 户 
对 时 区 统计 信息 进 了 分解 。 为 了 简单 起 见 ， 我 们 假 
定 只 要 agent 字 人 符 串 该 用 户 
为 Windows 用 户 。 由 于 有 的 agent 缺 失 ， 所 以 首先 将 
它们 从 数据 中 移 除 : 


In [308]: cframe = frame[frame.a.notnull()] 


其 次 根据 a 值 计 算出 各 行 是 否 是 Windows: 


In [309]: operating_system = np.where(cframe['a'].str.contains 
i 'Windows', 'Not Windows') 





In [310]: operating_system[:5] 
Out[310]: 

0 Windows 

1 Not Windows 

2 Windows 


3 Not Windows 
4 Windows 
Name: a 


接 下 来 束 可 以 根据 时 区 和 新 得 到 的 操作 系统 列 
表 对 数据 进行 分 组 了 : 
In [311]: by_tz_os = cframe.groupby(['tz', operating system]) 
然后 通过 size 对 分 组 结果 进行 计数 (类 似 于 上 


面 的 value_counts 函 数 ) ， 并 利用 unstack 对 计数 结 
末 进 行 重 塑 


In [312]: agg_counts = by_tz os.size().unstack().fillna(0) 





In [313]: agg_counts[:10] 


Out[313]: 
a Not Windows Windows 
tz 

245 276 
Africa/Cairo 0 3 
Africa/Casablanca 0 1 
Africa/Ceuta 0 2 
Africa/vJohannesburg 0 1 
Africa/Lusaka 0 1 
America/Anchorage 4 1 
America/Argentina/Buenos_Aires 1 0 
America/Argentina/Cordoba 0 1 
America/Argentina/Mendoza 0 1 


最 后 ， 我 们 来 选取 最 常 出 现 的 时 区 。 为 了 达到 
这 个 目的 ， 我 根据 agg_counts 中 的 行 数 构造 了 一 个 
间接 索引 数组 : 


# 用 于 按 开 序 拓 列 


In [314]: indexer = agg_counts.sum(1).argsort() 


In [315]: indexer[:10] 


Out[315]: 
tz 

24 
Africa/Cairo 20 
Africa/Casablanca 21 
Africa/Ceuta 92 
Africa/Johannesburg 87 
Africa/Lusaka 53 
America/Anchorage 54 
America/Argentina/Buenos_Aires 57 
America/Argentina/Cordoba 26 
America/Argentina/Mendoza 55 


然后 我 通过 take 按 照 这 个 顺序 截取 了 最 后 10 
行 : 
In [316]: count_subset = agg_counts.take(indexer)[-10:] 


In [317]: count_subset 


Out[317]: 
a Not Windows Windows 
tz 
America/Sao_Paulo 13 20 
Europe/Madrid 16 19 
Pacific/Honolulu 0 36 
Asia/Tokyo 2 35 
Europe/London 43 31 
America/Denver 132 59 
America/Los_Angeles 130 252 
America/Chicago 115 285 
245 276 
America/New_ York 339 912 


这 里 也 可 以 生成 一 张 条 形 图 。 我 将 使 用 
stacked=True 来 生成 一 张 堆积 条 形 图 (如 图 2-2 所 
不 ) 


In [319]: count_subset.plot(kind='barh', stacked=True) 


由 于 在 这 张 图 中 不 太 容 易 看 清楚 较 小 分 组 中 
Windows 用 户 的 相对 比例 ， 因 此 我 们 可 以 将 各 行规 
范 化 为 “总 计 为 1 并 重新 绘图 〈 如 图 2-3 所 示 ) : 


In [321]: normed_subset = count_subset.div(count_subset.sum(1) 
In [322]: normed_subset.plot(kind='barh', stacked=True) 


这 里 所 用 到 的 所 有 方法 都 会 在 本 书后 续 的 章节 
中 详细 讲解 。 


译注 1:， 由 于 可 以 通过 短 链 接 伪 造 .gov 后 缀 的 URL， 
导致 用 户 访问 恶意 域名 ， 所 以 美国 政府 开始 痢 手 处 
理 这 种 事情 了 。 

译注 2， 以 Feed 形 式 提供 。 

注 1: 网 址 ，http://www.usa.gov/About/developer- 
resources/1lusagov.shtml。 

详 注 3: 应 该 是 tz_counts 。 

译注 4: 注意 ， 一 定 要 以 pylab 模 式 打开 ， 奋 则 这 条 
代码 没 效 末 。 包 括 很 多 缩写 ，pylab 都 直接 卉 好 了 ， 
如 宁 不 是 用 这 种 模式 打开 ， 后 面 很 多 代码 一 样 会 遇 
到 问题 ， 虽 然 不 是 什么 大 毛病 ， 但 毕竟 及 灶 。 后 面 
如 采 遇 到 这 没 定义 那 找 不 到 的 情况 ， 束 请 注意 是 不 
是 因为 这 个 。 

译注 5:;: 即 浏览 右 的 USER_AGENT 人 信息。 








MovieLens 1M 数 据 集 


GroupLens 
Research 〈http:/www.grouplens.org/node/73) 采集 
本 一 组 从 20 世 纪 90 年 末 到 21 世 纪 初 由 MovieLens 用 
户 提 供 的 电影 评分 数据 。 这 些 数据 中 包括 电影 评 
分 、 电 影 元 数据 《风格 类 型 和 年 代 ) 以 及 关于 用 户 
的 人 口 统计 学 数据 《〈 年 龄 、 邮 编 、 性 别 和 职业 
等 ) 。 基 于 机 融 学 习 算 法 的 推荐 系统 一 般 都 会 对 此 
类 数据 感 兴趣 。 虽 然 我 不 会 在 本 书 中 详细 介绍 机 器 
学 习 技术 ， 但 我 会 告诉 你 如 何 对 这 种 数据 进行 切片 
切 块 以 满足 实际 需求 。 
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图 2-2: 按 Windows 和 非 Windows 用 户 统 计 的 最 党 出 

















现 的 时 区 


America/New York 





America/Chicago 


America/Los Angeles 


N 
ED 


Pacific/Honolulu 
Europe/Madrid 


America/Sao_Paulo 











图 2-3: 按 Windows 和 非 Windows 用 户 比 例 统计 的 最 
第 出 现 的 时 区 


MovieLens 1M 数 据 集 含有 来 自 6000 名 用 户 对 
4000 部 电影 的 100 万 条 评分 数据 。 它 分 为 三 个 表 : 
评分 、 用 户 信息 和 电影 信息 。 将 该 数据 从 zip 文 件 中 
解压 出 来 之 后 ， 可 以 通过 pandas.read_table 将 各 个 表 
分 别 读 到 一 个 pandas DataFrame 对 象 中 : 





import pandas as pd 


unames = ['user_id', 'gender', 'age', 'occupation', 'zip'| 
users = pd.read table('ml-1im/users.dat', sep='::', header=None 


rnames = ['user_id', 'movie id', 'rating', 'timestamp'] 
ratings = pd.read table('ml-1im/ratings.dat', sep='::', header= 


mnames 
movies 


['movie_ id', 'title', 'genres'] 
pd.read_table( 'ml-1im/movies.dat', sep="::" 


; header=No 


利用 Python 的 切片 语法 ， 通 过 查看 每 个 
DataFrame 的 前 几 行 即 可 验证 数据 加 载 工 作 是 否 一 


切 顺利 : 


In [334]: users[:5] 
Out[3341] : 
user_id gender a 


和 ONOPO 
OO 上 wm 
三 三 三 三 由 


In [335]: ratings[ :5 


Out[335] : 

user_id movie id 
© 1 1193 
1 1 661 
2 1 914 
3 1 3408 
4 1 2355 


In [336]: movies[:5] 
Out[336]: 
movie_id 


ODPO 


1 
2 
3 
4 
5 


In [337]: ratings 
Out[337]: 


ge 

1 
56 
25 
45 
25 


] 


occupation zip 


rating 


ORPOWOWO 


10 48067 
16 70072 
15 55117 
7 02460 
20 55455 


timestamp 
978300760 
978302109 
978301968 
978300275 
978824291 


title 
Toy Story (1995) 
Juman]ji (1995) 


Grumpier Old Men (1995) 


Waiting 


to Exhale (1995 ) 


Father of the Bride Part II (1995 ) 


<class 'pandas.core.frame.DataFrame'> 
Int64Index: 1000209 entries, 0 


Data columns: 


user_id 1000209 
movie_id 1000209 
rating 1000209 


timestamp 1000209 
dtypes: int64(4) 


non-null 
non-null 
non-null 
non-null 


to 1000208 


values 
values 
values 
values 


Animation|Ch 
Adventure|Chi 


注意 ， 其 中 的 年 龄 和 职业 是 以 编码 形式 给 出 

的 ， 它 们 的 基体 含义 请 参考 该 数据 集 的 README 葡 
件 。 分 析 散 布 在 三 个 表 中 的 数据 可 不 是 一 件 轻松 的 
事情 。 假 设 我 们 想 要 根据 性 别 和 年 龄 计算 某 部 电影 
的 平均 得 分 ， 如 果 将 所 有 数据 都 合并 到 一 个 表 中 的 
话 问题 就 简单 多 了 。 我 们 先 用 pandas 的 merge 函 数 将 
ratings 跟 users 合 并 到 一 起 ， 然 后 再 将 movies 也 合并 
进去 。pandas 会 根据 列 名 的 重合 情况 推 呆 出 哪些 列 
是 合并 (或 连接 ) 键 : 


In [338]: data = pd.merge(pd.merge(ratings, users), movies) 








In [339]: data 

Out[339]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 1000209 entries, 0 to 1000208 
Data columns: 


user_id 1000209 non-null values 
movie_id 1000209 non-null values 
rating 1000209 non-null values 
timestamp 1000209 non-null values 
gender 1000209 non-null values 
age 1000209 non-null values 
occupation 1000209 non-null values 
zip 1000209 non-null values 
title 1000209 non-null values 
genres 1000209 non-null values 


dtypes: int64(6), object(4) 


In [340]: data.ix[0] 

Out[340]: 

user_id 1 
movie_id 1 
rating 5 
timestamp 978824268 
gender F 
age 1 
occupation 10 


zip 48067 


title Toy Story (1995) 
genres Animation|Children's|Comedy 
Name: 0 


现在 ， 只 要 稍微 熟悉 一 下 pandas， 就 能 轻松 地 
根据 任意 个 用 户 或 电影 属 性 对 评分 数据 进行 聚合 操 
作 了 。 为 了 按 性 别 计算 每 部 电影 的 平均 得 分 ， 我 们 
可 以 使 用 pivot_table 方 法 : 


In [341]: mean_ratings = data.pivot_ table('rating', rows='titl 
i cols='gender', aggfunc='mean') 


In [342]: mean_ratings[:5] 


Out[342]: 

gender F M 

title 

$1,000,000 Duck (1971) 3.375000 2.761905 
'Night Mother (1986) 3.388889 3.352941 
'Til There Was You (1997) 2.675676 2.733333 
'burbs, The (1989) 2.793478 2.962085 
, ,And Justice for All (1979) 3.828571 3.689024 


该 操作 产生 了 男 一 个 DataFrame， 其 内 容 为 电 
有 影 平均 得 分 ， 行 标 为 电影 名 称 ， 列 标 为 性 别 。 现 
在 ， 我 打算 过 小 揉 评分 数据 不 够 250 条 的 电影 〈 随 
便 选 的 一 个 数字 ) 。 1 我 先 对 
title 进 行 分 组 ， 然 后 利用 size() 得 到 一 个 含有 各 电影 
分 组 大 小 的 Series 对 象 : 


In [343]: ratings_by_title = data.groupby('title').sizel() 





In [344]: ratings_by_title[:10] 
Out[344]: 
title 


$1,000,000 Duck (1971) 37 


'Night Mother (1986) 70 
'Til There Was You (1997) 52 
'burbs, The (1989) 303 

. ,And Justice for All (1979) 199 
1-900 (1994) 2 
10 Things I Hate About You (1999) 700 
101 Dalmatians (1961) 565 
101 Dalmatians (1996) 364 
12 Angry Men (1957) 616 


In [345]: active titles = ratings_by_title.index[ratings_by_ti 


In [346]: active_titles 

Out[346]: 

Index(['burbs, The (1989), 10 Things I Hate About You (1999), 
101 Dalmatians (1961), ..., Young Sherlock Holmes (1985 
Zero Effect (1998), eXistenz (1999)], dtype=object) 


该 索引 中 含有 评分 数据 大 于 250 条 的 电影 
称 ， 然后 我 们 就 可 以 据 此 从 前 面 的 mean_ratings 中 
选取 所 需 的 行 了 : 


In [347]: mean_ratings = mean_ratings.ix[active titles] 


In [348]: mean_ratings 

Out[348]: 

<class 'pandas.core.frame.DataFrame'> 

Index: 1216 entries, 'burbs, The (1989) to eXistenZ (1999) 
Data columns: 

F 1216 non-null values 

M 1216 non-null values 

dtypes: float64(2) 


为 了 了 解 女 性 观众 最 喜欢 的 电影 ， 我 们 可 以 对 
F 列 降序 排列 : 


In [350]: top_female_ratings = mean_ratings.sort_index(by="'F", 





In [351]: top_female_ratings[:10] 


Out[351] : 

gender 

title 

Close Shave, A (1995) 4.6444 
Wrong Trousers, The (1993) 4.5882 
Sunset Blvd. (a.k.a. Sunset Boulevard) (1950) 4.5726 
Wallace & Gromit: The Best of Aardman Animation (1996) 4.5631 
Schindler's List (1993) 4.5626 
Shawshank Redemption, The (1994 ) 4.539C 
Grand Day Out, A (1992) 4.5378 
To Kill a Mockingbird (1962) 4.5366 
Creature Comforts (1990 ) 4.5138 
Usual Suspects, The (1995 ) 4.5132 


计算 评分 分 歧 


假设 我 们 想 要 找 出 男性 和 女性 观众 分 卜 最 大 的 
电影 。 一 个 办 法 是 给 mean_ratings 加 上 一 个 用 于 存 
放 平 均 得 分 之 兰 的 列 ， 并 对 其 进行 排序 : 


In [352]: mean_ratings['diff'] = mean_ratings['M'] - mean_rati 


按 "diff" 排 序 即 可 得 到 分 歧 最 大 且 女 性 观众 更 喜 
欢 的 电影 : 


In [353]: sorted_ by_diff = mean_ratings,sort_index(by='diff') 


In [354]: sorted by_diff[:15] 


Out[354]: 

gender F M 
title 

Dirty Dancing (1987) 3.790378 2.959596 -0.&8 
Jumpin' Jack Flash (1986) 3.254717 2.578358 -0.6 
Grease (1978) 3.975265 3.367041 -0.6 
Little Women (1994) 3.870588 3.321739 -0.5 
Steel Magnolias (1989) 3.901734 3.365957 -0.5 


Anastasia (1997 ) 3.800000 
Rocky Horror Picture Show，The (1975) 3.673016 
Color Purple, The (1985 ) 4.158192 
Age of Innocence, The (1993) 3.827068 
Free Willy (1993) 2.921348 
French Kiss (1995) 3.535714 
Little Shop of Horrors, The (1960) 3.650000 
Guys and Dolls (1955) 4.051724 
Mary Poppins (1964) 4.197740 
Patch Adams (1998) 3.473282 








mmmhpoanomnom wm 


,281609 
.160131 
.659341 
.339506 
,438776 
,056962 
.179688 
.583333 
.730594 
,008746 


-0 ， 
-0 ， 
-0， 
-0 ， 
-0 ， 
-0 ， 
-0 ， 
-0 ， 
-0， 
-0， 


对 排序 结束 反 序 并 取出 前 15 行 ， 得 到 的 则 是 男 





性 观众 更 喜欢 的 电影 : 


上 上 上 和 上 上 和 上 上 和 上 上 上 上 (7 (7 


# 对 行 反 序 ， 并 取出 前 15 行 


In [355]: sorted_by_diff[::-1][:15] 

Out[355]: 

gender F 
title 

Good, The Bad and The Ugly, The (1966) 
Kentucky Fried Movie, The (1977) 

Dumb & Dumber (1994) 

Longest Day, The (1962) 

cable Guy, The (1996) 

Evil Dead II (Dead By Dawn) (1987) .297297 
Hidden, The (1987) .137931 


3.494949 
2 
2 
3 
2 
3 
3 
Rocky III (1982) 2.361702 
3 
3 
2 
3 
3 
2 
1 


,878788 
.697987 
.411765 
.250000 


Caddyshack (1980) .396135 
For a Few Dollars More (1965) .409091 
Porky's (1981) .296875 
Animal House (1978 ) .628906 
Exorcist, The (1973) .537634 
Fright Night (1985) .973684 
Barb Wire (1996) .585366 





NO 上 上 NONNDDONONDPA 上 mm 


M 


,221300 
.555147 
.336595 
.031447 
.863787 
,909283 
.745098 
,943503 
.969737 
,953795 
.836364 
.167192 
.067239 
.500000 
.100386 


OOOOOOOOOOOOOOoO0oo 


如 果 只 是 想 要 找 出 分 皮 最 大 的 电影 不 考虑 性 





别 因 和 对 ) 


# 根据 电影 名 称 分 组 的 得 分 数据 的 标准 2 





则 可 以 计算 得 分 数据 的 方 莽 或 标准 基 : 


In [356]: rating_std_by_title = data.groupby('title')['rating' 


# 根据 active_titles 进 行 过 滤 
In [357]: rating_std_by_title = rating_std_by_title.ix[active_ 


# 根据 值 对 Series 进 行 降序 排列 
In [358]: rating_std_ by title.order(ascending=False)[:10] 


Out[358]: 

title 

Dumb & Dumber (1994) 1.321333 
Blair Witch Project, The (1999) 1.316368 
Natural Born Killers (1994) 1.307198 
Tank Girl (1995 ) 1.277695 
Rocky Horror Picture Show, The (1975 ) 1.260177 
Eyes Wide Shut (1999) 1.259624 
Evita (1996) 1.253631 
Billy Madison (1995) 1.249970 
Fear and Loathing in Las Vegas (1998) 1.246408 
Bicentennial Man (1999) 1.245533 


Name: rating 


可 能 你 已 经 注意 到 了 ， 电 影 分 类 是 以 竖 线 (|) 
分 阳 的 字符 串 形式 给 出 的 。 如 果 想 对 电影 分 类 进行 
分 析 的 话 ， 束 需要 先 将 其 转换 成 更 有 用 的 形式 才 
行 。 我 将 在 本 书后 续 章 节 中 讲 到 这 种 转换 处 理 ， 到 
时 还 会 再 用 到 这 个 数据。 











1880-2010 年 间 全 美 健 儿 姓 名 


美国 社会 保障 总 署 (SSA) 提供 了 一 份 从 1880 
年 到 2010 年 的 砚 儿 名 字 频 率 数据 。Hadley 
Wickham 〈 许 多 流行 R 包 的 作者 ) 经 常用 这 份 数据 
来 演示 R 的 数据 处 理 功能 。 


In [4]: names.head(10) 


Out[4]: 

name sex births year 
0 Mary F 7065 1880 
1 Anna F 2604 1880 
2 Emma F 2003 1880 
3 Elizabeth FF 1939 1880 
4 Minnie F 1746 1880 
5 Margaret F 1578 1880 
6 Ida F 1472 1880 
7 Alice F 1414 1880 
8 Bertha F 1320 1880 
9 Sarah F 1288 1880 


你 可 以 用 这 个 数据 集 做 很 多 事 ， 例 如 : 


计算 指定 名 字 〈 可 以 是 你 自己 的 ， 也 可 以 是 
别人 的 ) 的 年 度 比 例 。 


-计算 某 个 名 字 的 相对 排名 。 


计算 各 年 度 最 流行 的 名 字 ， 以 及 增长 或 减少 
最 快 的 名 字 。 


分 析 名 字 趋 势 : 元 音 、 辅 音 、 长 度 、 总 体 多 
样 性 、 拼 写 变 化 、 首 尾 字 母 等 。 


.分 析 外 源 性 趋势 : 圣经 中 的 名 字 、 名 人 、 人 
口 结构 变化 等 。 


利用 前 面 介绍 过 的 那些 工具 ， 这 些 分 析 工 作 都 
能 很 轻松 地 完成 ， 因 此 我 会 尽量 多 讲 一 些 。 我 建议 
你 下 载 这 些 数据 并 杀 目 试 一 试 。 如 末 你 在 这 些 数据 
和 我 将 非常 乐意 听 上 一 
上 听 。 


到 编写 本 书 时 为 止 ， 美 国 社会 保障 总 署 将 该 数 
据 库 按 年 度 制 成 了 多 个 数据 文件 ， 其 中 给 出 了 每 个 
性 别 /名 字 组 合 的 出 生 总 数 。 这 些 文件 的 原始 档案 可 
以 在 这 里 获取 ， 译注 6 


http://www.ssa.gov/oact/babynames/limits.htm]l? 


如 果 你 在 阅读 本 书 的 时 候 这 个 页 面 已 经 不 见 
了 ， 也 可 以 用 搜索 引擎 找 找 。 下 载 "National data" 文 
件 names.zip， 解 压 后 的 目录 中 含有 一 组 文件 (如 
yob1880.txt) 。 我 用 UNIX 的 head 命 令 查看 了 其 中 一 
个 文件 的 前 10 行 〈 在 Windows 上 ， 你 可 以 用 more 命 
令 ， 或 直接 在 文本 编辑 器 中 打开 ) : 


In [367]: !head -n 10 names/yob1880.txt 
Mary,F,7065 


























Anna, F, 2604 
Emma, F, 2003 
Elizabeth,F,1939 
Minnie,F,1746 
Margaret,F,1578 
Ida,F,1472 
Alice,F,1414 
Bertha,F,1320 
Sarah,F,1288 


由 于 这 是 一 个 非常 标准 的 以 人 逗 号 隔 开 的 格式 ， 
所 以 可 以 用 pandas.read_csv 将 其 加 载 到 DataFrame 
中 : 


In [368]: import pandas as pd 
In [369]: names1880 = pd.read csv('names/yob1880.txt', names=[ 


In [370]: names1880 

Out[370]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 2000 entries, © to 1999 
Data columns: 

name 2000 non-null values 

sex 2000 non-null values 
births 2000 non-null values 
dtypes: int64(1), object(2) 


这 些 文 件 中 仅 售 有 当年 出 现 超过 5 次 的 名 字 。 
为 了 简单 起 见 ， 我 们 可 以 用 births 列 的 sex 分 组 小 计 
表示 该 年 度 的 births 总 计 : 


In [371]: names1880.groupby('sex').births.sum() 














Out[371] : 
SexX 

F 90993 
M 110493 


Name: births 





由 于 该 数据 集 投 年 度 被 分 隅 成 了 多 个 文件 ， 所 
以 第 一 件 事情 束 是 要 将 所 有 数据 都 组 装 到 一 个 
DataFrame 里 面 ， 并 加 上 一 个 year 字 段 。 使 用 
pandas.concat 即 可 达到 这 个 目的 : 


# 2010 走 目前 取 后 一 个 有 有 效 统计 年 度 
years = range(1880, 2011) 








pieces = [|] 
columns = ['name', 'sex', 'births'] 
for year in years: 
path = 'names/yob%d.txt' % year 
frame = pd.read_ csv(path, names=columns) 


frame['year'] = year 
pieces.append(frame) 








# 将 所 有 数据 整合 到 单个 DataFrame 中 


names = pd.concat(pieces, ignore_index=True) 





这 里 需要 注意 几 件 事情 。 第 一 ，concat 默 认 是 
按 行将 多 个 DataFrame 组 合 到 一 起 的 ;， 第 二 ， 必 人 须 
指定 ignore_index=True， 因 为 我 们 不 希望 保留 
read_csv 所 返回 的 原始 行 号 。 现 在 我 们 得 到 了 一 个 
非常 大 的 DataFrame， 它 含有 全 部 的 名 字数 据 。 


现在 names 这 个 DataFrame 对 象 看 上 去 应 该 是 这 


个 样子 : 


In [373]: names 

Out[373] : 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 1690784 entries, 0 to 1690783 
Data columns: 








4 





name 1690784 non-null values 
sex 1690784 non-null values 
births 1690784 non-null values 
year 1690784 non-null values 


dtypes: int64(2), object(2) 


有 了 这 些 数据 之 后 ， 我 们 束 可 以 利用 groupby 
或 pivot_table 在 year 和 sex 级 别 上 对 其 进行 聚合 了 ， 
如 图 2-4 所 示 : 


In [374]: total births 





= names.pivot_table('births', rows='yea 
cols="'sex', aggfunc 


In [375] : 
Out[375]: 


total_births.tail() 


sex 
year 
2006 
2007 
2008 
2009 
2010 


In [376]: 


F 


1896468 
1916888 
1883645 
1827643 
1759010 


M 


2050234 
2069242 
2032310 
1973359 
1898382 


total births 


.plot(title='Total births by sex and yea 


下 面 我 们 来 插入 一 个 prop 列 ， 用 于 存放 指定 名 
字 的 砚 儿 数 相 对 于 总 出 生 数 的 比例 。prop 值 为 0.02 
表示 每 100 名 避 儿 中 有 2 名 取 了 当前 这 个 名 字 。 
此 ， 我 们 先 按 year 和 sex 分 组 ， 然 后 再 将 新 列 加 到 各 
A A Mm 


def add_prop(group): 
# 整数 除法 会 向 下 圆 整 


births = group.births.astype(float) 


group['prop'] = births / births.sum() 
return group 


names = names.groupby(['year', 'sex']).apply(add_prop) 


注意 : 由 于 births 是 整数 ， 所 以 我 们 在 计算 分 
式 时 必须 将 分 子 或 分 母 转换 成 浮 点 数 〈 除 非 你 正在 
使 用 Python 3! ) 。 








Total births by sex and year 
2500000 
SeX 
一 F 
2000000|| 一 M 
1500000 
AS 
1000000 号 
500000 
1880 1900 1920 1940 1960 1980 2000 2020 
ear 











图 2-4: 控 性 别 和 年 度 统计 的 总 出 生 数 
现在 ， 完 整 的 数据 集束 有 了 下 和 面 这 些 列 : 


In [378]: names 

Out[378 1] : 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 1690784 entries, 0 to 1690783 
Data columns: 


name 1690784 non-null values 
sex 1690784 non-null values 
births 1690784 non-null values 
year 1690784 non-null values 
prop 1690784 non-null values 


dtypes: float64(1), int64(2), object(2) 


在 执行 这 样 的 分 组 处 理 时 ， 一 般 都 应 该 做 一 些 





有 效 性 检查 ， 比 如 验证 所 有 分 组 的 prop 的 总 和 是 否 
为 1。 由 于 这 是 一 个 浮 点 型 数据 ， 所 以 我 们 应 该 用 
np.allclose 来 检查 这 个 分 组 总 计 值 是 否 足 够 近似 于 
(可 能 不 会 精确 等 于 ) 1: 


In [379]: np.allclose(names.groupby(['year', 'sex']).prop.sum( 
Out[379]: True 


这 样 束 算 完 活 了 。 为 了 便于 实现 更 进一步 的 分 
析 ， 我 需要 取出 该 数据 的 一 个 子 集 : 每 对 sex/year 
组 合 的 前 1000 个 名 字 。 这 又 是 一 个 分 组 操作 : 


def get_top1000(group ) : 
return group.sort_index(by='births'，ascending=False)[:10C 





grouped 
top1000 


names.groupby(['year', ' Sex ']) 
grouped.apply(get_top1000) 


如 果 你 喜欢 DIY 的 话 ， 也 可 以 这 样 : 


pieces = [] 

for year, group in names.groupby(['year', 'sex'|]): 
pieces.append(group.sort_index(by='births', scending=False 

top1000 = pd.concat(pieces, ignore_index=True) 


现在 的 结果 数据 集 就 小 多 了 : 


In [382]: top1000 

Out[382] : 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 261877 entries, © to 261876 
Data columns: 

name 261877 non-null values 

sex 261877 non-null values 
births 261877 non-null values 








year 261877 non-null values 
prop 261877 non-null values 
dtypes: float64(1), int64(2), object(2) 


接 下 来 的 数据 分 析 工 作 束 针对 这 个 top1000 数 
据 集 了 。 
分 析 命 名 趋势 

有 了 完整 的 数据 集 和 刚才 生成 的 top1000 数 据 
集 ， 我 们 束 可 以 开始 分 析 各 种 命名 趋势 了 。 首 先 将 
前 1000 个 名 字 分 为 男女 两 个 部 分 : 


In [383]: boys = top1000[top1000.sex == 'M'] 











In [384]: girls = top1000[top1000.Sex == 'F'] 


这 是 两 个 简单 的 时 间 序 列 ， 只 需 稍 作 整理 即 可 
绘制 出 相应 的 图 表 《〈 比 如 每 年 叫做 John 和 Mary 的 砚 
儿 数 ) 。 我 们 先生 成 一 张 按 year 和 name 统 计 的 总 出 
生 数 透视 表 : 


In [385]: total births = top1000.pivot_table('births', rows='y 
ee aggfunc=sum) 


现在 ， 我 们 用 DataFrame 的 plot 方 法 绘制 几 个 名 
字 的 曲线 图 : 
In [386]: total births 


Out[386]: 
<class 'pandas.core.frame.DataFrame'> 





Int64Index: 131 entries, 1880 to 2010 
Columns: 6865 entries, Aaden to Zuri 
dtypes: float64(6865) 


In [387]: subset = total births[['John', 'Harry', 'Mary', 'Mar 


In [388]: subset.plot(subplots=True, figsize=(12, 10), grid=Fe 
a title="Number of births per year") 


最 终结 果 如 图 2-5 所 示 。 从 图 中 可 以 看 出 ， 
几 个 名 字 在 美国 人 民 的 心目 中 已经 风光 不 再 了 。 但 
事实 并 非 如 此 简单 ， 我 们 在 下 一 节 中 了 就 能 知道 是 怎 


一 回 事 了 。 

































































图 2-5: 几 个 男孩 和 女孩 名 字 随 时 间 变 化 的 使 用 数 


= 
里 


评估 命名 多 样 性 的 增长 





图 2-5 所 反映 的 降低 情况 可 能 意味 着 父母 愿意 
给 小 孩 起 常见 的 名 字 越 来 越 少 。 这 个 假设 可 以 从 数 
据 中 得 到 验证 。 一 个 办 法 是 计算 最 流行 的 1000 个 名 
字 所 占 的 比例 ， 我 按 year 和 和 sex 进行 聚合 并 绘图 : 


In [390]: table = top1000.pivot_table('prop', rows='year', 
i cols='sex', aggfunc=sum) 








In [391]: table.plot(title='Sum of table1000.prop by year and 
ee yticks=np.linspace(0, 1.2, 13), xticks=ra 


结果 如 图 2-6 所 示 。 从 图 中 可 以 看 出 ， 名 字 的 
多 样 性 确实 出 现 了 增长 《前 1000 项 的 比例 降低 ) 。 
另 一 个 办 法 是 计算 占 总 出 生 人 数 前 50% 的 不 同名 字 
的 数量 ， 这 个 数字 不 太 好 计算 。 我 们 只 考虑 2010 年 
男孩 的 名 字 : 


In [392]: df = boys[boys.year == 2010] 








In [393]: df 

Out[393] : 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 1000 entries, 260877 to 261876 
Data columns: 


name 1000 non-null values 
sex 1000 non-null values 
births 1000 non-null values 
year 1000 non-null values 


prop 1000 non-null values 
dtypes: float64(1), int64(2), object(2) 





Sum of table1000.prop by year and sex 








1 1 上 1 1 上 1 上 1 1 1 
0880 1890 1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010 
year 


图 2-6: 分 性 别 统 计 的 前 1000 个 名 字 在 总 出 生 人 数 
中 的 比例 


在 对 prop 降 序 排列 之 后 ， 我 们 想 知 道 前 面 多 少 
个 名 字 的 人 数 加 起 来 才 够 50%。 虽 然 编 写 一 个 for 循 
环 确 实 也 能 达到 目的 ， 但 NumPy 有 一 种 更 聪明 的 矢 
量 方 式 。 先 计算 prop 的 累计 和 cumsum， 然 后 再 通过 
searchsorted 方 法 找 出 0.5 应 该 被 插入 在 哪个 位 置 才能 
保证 不 破坏 顺序 : 


In [394]: prop_cumsum = df.sort_index(by="'prop', ascending=Fal 




















In [395]: prop_cumsum[:10] 


Out[395]: 

260877 0 .011523 
260878 0.020934 
260879 ©0.029959 
260880 0.038930 
260881 0.047817 
260882 0.056579 
260883 ©0.065155 


260884 © .073414 
260885 0.081528 
260886 0.089621 


In [396]: prop_cumsum.searchsorted(0.5) 
Out[396]: 116 


由 于 数组 索引 是 从 0 开始 的 ， 因 此 我 们 要 给 这 
个 结果 加 1， 即 最 终结 果 为 117。 拿 1900 年 的 数据 来 
做 个 比较 ， 这 个 数字 要 小 得 多 : 


In [397]: df = boys[boys.year == 1900] 

In [398]: in1900 = df.sort_index(by='prop', ascending=False).r 
In [399]: in1900.searchsorted(0.5) + 1 

Out[399]: 25 


现在 就 可 以 对 所 有 year/sex 组 合 执 行 这 个 计算 
了 。 按 这 两 个 字段 进行 groupby 处 理 ， 然 后 用 一 个 
函数 计算 各 分 组 的 这 个 值 : 
def get_quantile count(group, qdq=0.5): 


group = group.sort_index(by='prop', ascending=False) 
return group.prop.cumsum().searchsorted(q) + 1 


diversity = top1000.groupby(['year', 'sex']).apply(get_quantil 
diversity = diversity.unstack('sex') 


现在 ，diversity 这 个 DataFrame 拥 有 两 个 时 间 序 
列 〈 每 个 性 别 各 一 个 ， 按 年 度 索 引 ) 。 通 过 
IPython， 你 可 以 伍 看 其 内 容 ， 还 可 以 像 之 前 那样 给 
制图 表 《〈 如 图 2-7 所 示 ) : 


In [401]: diversity.head() 
Out[4011] : 





sex 
year 
1880 
1881 
1882 
1883 
1884 


In [402] : 


F 


38 
38 
38 
39 
39 


M 


14 
14 
15 
15 
16 


diversity.plot(title="Number of popular names in tor 


Number of popular names in top 50% 
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year 





图 2-7: 按 年 度 统计 的 密度 表 


从 图 中 可 以 看 出 ， 女 孩 名 字 的 多 样 性 总 是 比 男 
孩 的 高 ， 而 且 还 在 变 得 越 来 越 高 。 读 者 们 可 以 目 己 
分 析 一 下 有 基体 是 什么 在 驱动 这 个 多 样 性 “比如 拼 与 
形 却 的 变化 ) 。 


“最 后 一 个 字母 "的 变革 


2007 年 ， 一 名 砚 儿 姓名 研究 人 员 Laura 


Wattenberg 在 她 目 己 的 网 站 上 指出 
(http://www.babynamewizard.com) : 近 百 年 来 ， 
男孩 名 字 在 最 后 一 个 字母 上 的 分 布 友 生 了 显著 的 变 
化 。 为 了 了 解 具 体 的 情况 ， 我 首先 将 全 部 出 生 数 据 
在 年 度 、 性 别 以 及 来 字母 上 进行 了 聚合 : 


# 从 name 列 取出 最 后 一 个 字 坪 

get_last_letter = lambda x: x[-1] 

last_letters = names.name.map(get_last_letter) 

last_letters.name = 'last_letter' 

table = names.pivot_ table('births', rows=last_letters, 
cols=['sex', 'year'], aggfunc:= 























然后 ， 我 选 出 具有 一 定 代 表 性 的 三 年 ， 并 输出 
表面 几 行 : 


In [404]: subtable = table.reindex(columns=[1910, 1960, 2010], 


In [405]: subtable.head() 


Out[405]: 

Sex F M 

year 1910 1960 2010 1910 1960 2010 
last_letter 

a 108376 691247 670605 977 5204 28438 
b NaN 694 450 411 3912 38859 
C 5 49 946 482 15476 23125 
d 6750 3729 2607 22111 262112 44398 
e 133569 435013 313833 28655 178823 129012 


接 下 来 我 们 需要 按 总 出 生 数 对 该 表 进 行规 范 化 
处 理 ， 以 便 计 算出 各 性 别 各 末 字 母 占 总 出 生 人 数 的 
比例 : 


In [406]: subtable.sum() 
Out[406]: 





sex year 
F 1910 396416 
1960 2022062 
2010 1759010 
M 1910 194198 
1960 2132588 
2010 1898382 
In [407]: letter_prop = subtable / subtable.sum().astype(float 


有 了 这 个 字母 比例 数据 之 后 ， 束 可 以 生成 一 张 
各 年 度 各 性 别 的 条 形 图 了 上 了， 如 图 2-8 所 示 : 


import matplotlib.pyplot as plt 

fig, axes = plt.subplots(2, 1, figsize=(10, 8)) 
letter_prop['M'] .plot(kind='bar', rot=0, ax=axes[0], title='Ma 
letter_prop['F'].plot(kind='bar', rot=0, ax=axes[1], title='Fe 


0.35 year 
mm 1910 
[| 1960 
i 2010 












































图 2-8: 男孩 女孩 名 字 中 各 个 末 字 和 母 的 比例 


从 图 2-8 中 可 以 看 出 ， 从 20 世 纪 60 年 代 开 始 ， 
以 字母 "nm" 结尾 的 男孩 名 字 出 现 了 显著 的 增长 。 回 


到 之 前 创建 的 那个 完整 表 ， 按 年 度 和 性 别 对 其 进行 
规范 化 处 理 ， 并 在 男孩 名 字 中 选取 几 个 字母 ， 最 后 
进行 转 置 以 便 将 各 个 列 做 成 一 个 时 间 序 列 : 
In [410]: letter_prop = table / table.sum().astype(float) 
In [411]: dny_ts = letter_ prop.ix[['d', 'n', 'y'], 'M'].T 


In [412]: dny_ts.head() 


Out[412] : 

d n y 
year 
1880 0.083055 0.153213 0.075760 
1881 0.083247 0.153214 0.077451 
1882 0.085340 0.149560 0.077537 
1883 0.084066 0.151646 0.079144 
1884 0.086120 0.149915 0.080405 


有 了 这 个 时 间 序 列 的 DataFrame 之 后 ， 束 可 以 
通过 其 plot 方 法 绘制 出 一 张 趋势 图 了 如 图 2-9 所 
示 ) : 


In [414]: dny_ts.plot() 
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图 2-9: 各 年 出 生 的 男孩 中 名 字 以 d/m/y 结 尾 的 人 数 


比例 


变 成 女孩 名 字 的 男孩 名 字 【〔 以 及 相反 的 情况 》 


另 一 个 有 趣 的 趋势 是 ， 早 年 流行 于 男孩 的 名 字 
近年 来 “变性 了 ”， 例 如 Lesley 或 Leslie。 回 到 top1000 
数据 集 ， 找 出 其 中 以 "lesl" 开 头 的 一 组 名 字 : 


In [415]: 
In [416]: 
In [417]: 


In [418] : 
Out [418] : 





all_names = top1000.name.unique() 
mask = np.array(['lesl' in x.lower() for x in all_ne 
lesley_like = all names[mask] 


lesley_like 
array([Leslie, Lesley, Leslee, Lesli, Lesly], dtype:= 





然后 利用 这 个 结果 过 小 其 他 的 名 字 ， 并 按 名 了 字 
分 组 计算 出 生 数 以 查看 相对 频率 : 


In [419]: filtered = top1000[top1i000.name.isin(lesley_like)] 


In [420]: filtered.groupby('name').births.sum() 


Out[420]: 


Leslie 
Lesly 


370429 


10067 


Name: births 


接 下 来 ， 我 们 按 性 别 和 年 度 进行 聚合 ， 并 按 年 


度 进行 规范 化 处 理 : 


In [421]: table = filtered.pivot_ table('births', rows='year', 
站 cols='sex', aggfunc="'sun 

In [422]: table = table.div(table.sum(1), axis=0) 

In [423]: table.tail() 


Out [423]: 
sex F M 
year 

2006 1 NaN 
2007 1 NaN 
2008 1 NaN 
2009 1 NaN 
2010 1 NaN 


现在 ， 我 们 就 可 以 轻松 绘制 一 张 分 性 别 的 年 度 
曲线 图 了 (如 图 2-10 所 示 ): 


In [425]: table.plot(style={'M': 'k-', 'F': 'k--'}) 















1 
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year 


图 2-10: 各 年 度 使 用 “Lesley 型 ”名字 的 男女 比例 
译注 6:; 如 下 链接 可 能 不 可 用 ， 恋 者 可 直接 在 本 书 
的 github 上 下 载 。 








小 结 及 展望 


本 章 中 的 这 些 例子 部 非常 简单 ， 但 它们 可 以 让 

你 大 至 了 解 后续 半 市 的 相关 内 容 。 本 书 关 注 的 焦 扩 

是 工具 而 不 是 那些 复杂 精妙 的 分 析 方 法 。 和 区 握 本 书 

所 介绍 的 扩 术 将 使 你 能 够 立马 开展 目 己 的 分 析 工 作 
《假设 你 已 经 知道 要 做 什么 了 ) 。 








第 3 半 ”IPython: 一 种 交互 式 计算 和 开 
友 坏 境 


为 无 为 ， 事 无 事 ， 味 无 味 。 大 小 多 少 。 报 怨 以 


图 难于 其 易 ， 为 大 于 其 细 ; 
一 一 老子 


人 们 经 常 问 我 , “你 的 Python 开发 环境 是 什 

么 ? "我 的 回答 基本 永远 都 是 “IPython 外 加 一 个 文本 
编辑 器 ”。 如 果 想 要 得 到 更 加 高 级 的 图 形 化 工具 和 
代码 目 动 完成 功能 ， 你 也 可 以 考虑 用 一 秋 集 成 开发 
环境 (IDE) 来 代 答 文本 编辑 器 。 即 便 如 此 ， 我 仍 
然 强烈 建议 你 将 IPython 作 为 工作 中 的 重要 工具 。 有 
的 IDE 其 至 本 里 束 集成 了 IPython， 所 以 说 两 全 其 美 
的 办 法 还 是 有 的 。 


2001 年 ，Fernando Pérez 为 了 得 到 一 个 更 为 高 效 
的 交互 式 Python 解 释 嚣 而 启动 了 一 个 业余 项 目 ， 于 
是 IPython 项 目 诞生 了 。 在 接 下 来 的 11 年 中 ， 它 逐渐 
被 公认 为 现代 科学 计算 中 最 重要 的 Python 工具 之 

















一 。IPython 本 和 里 并 没有 提供 任何 的 计算 或 数据 分 析 
功能 ， 其 设计 目的 是 在 交互 式 计算 和 软件 开发 这 两 
个 方面 最 大 化 地 提 禹 生产 力 。 它 致 励 一 种 “执行 一 
探索 ”(execute explore) 的 工作 模式 ， 而 不 是 许多 
其 他 编程 语言 那 种 “编辑 一 编译 一 运行 ”(edit- 
complie-run〉 的 传统 工作 模式 。 此 外 ， 它 跟 操 作 系 
统 shell 和 文件 系统 之 间 也 有 痢 非 党 紧密 的 集成 。 由 
于 大 部 分 的 数据 分 析 代 码 都 含有 探索 式 操作 【〈 试 误 
法 和 迭代 法 ) ， 因 此 IPython 〈 在 绝 大 多 数 情 况 下 ) 
将 有 助 于 提高 你 的 工作 效率 。 


当然 了 ，IPython 项 目 现 在 已 经 不 再 只 是 一 个 加 
强 版 的 交互 式 Python shell， 它 还 有 一 个 可 以 直接 进 
行 绘 图 操作 的 GUI 控 制 台 、 一 个 基于 Web 的 交互 式 
笔记 本 ， 以 及 一 个 轻 量 级 的 快速 并 行 计算 引擎 。 此 
外 ， 跟 许多 其 他 专 为 程序 员 设 计 ( 以 及 由 程序 员 设 
计 ) 的 工具 一 样 ， 它 也 是 高 度 可 定制 的 。 我 将 在 本 
章 最 后 介绍 一 些 这 样 的 功能 。 


由 于 了 Python 的 核心 功能 是 交互 ， 所 以 在 没有 动 
态 控制 台 的 情况 下 ， 本 章 中 的 某 些 功能 很 难说 得 清 
楚 。 如 果 这 是 你 第 一 次 学 习 IPython， 那 我 建议 你 照 
着 例子 实际 动手 试 试 ， 感 觉 一 下 到 底 是 怎么 一 回 
事 。 跟 所 有 由 键盘 驱动 的 控制 台 环 境 一 样 ， 锻 炼 对 
常用 命令 的 肌肉 记忆 是 学 习 曲 线 中 不 可 或 缺 的 一 部 
A 









































~、 


注意 : 在 第 一 次 阅读 时 ， 本 章 的 许多 内 容 都 可 
跳 过 不 看 ， 因 为 它们 对 理解 本 书 其 余 的 内 容 没 有 影 
啊 。 本 章 的 目的 是 让 你 对 IPython 所 提供 的 功能 有 一 
个 全 面 史 本 解 ， 





IPython 基 础 


你 可 以 通过 命令 行 启动 IPython， 就 像 启动 标准 
Python 解释 需 那 样 ， 只 是 把 命令 改 为 ipython 喷 了 : 
$ ipython 


Python 2.7.2 (default, May 27 2012, 21:26:12) 
Type "copyright", "credits" or "license" for more information. 


IPython 0.12 -- An enhanced Interactive Python. 

? -> Introduction and overview of IPython's features. 
%quickref -> Quick reference. 

help -> Python's own help system. 

object? -> Details about 'object', use 'object??' for ex 


你 可 以 在 这 里 执行 任何 Python 语 句 ， 只 需 将 其 
输入 然后 按 下 回 车 键 就 行 了 。 如 果 只 是 在 IPython 中 
得 入 了 一 个 变量 ， 那 么 它 将 会 显示 出 该 对 象 的 一 个 
字符 串 表 示 ， 详 注 1 


In[541]: import numpy as np 





In[542]: data = {i : randn() for i in range(7)}? 


In [543]: data 

Out[543]: 

{0: 0.5580886709219381, 
1: 0.25701015249982423, 
2: 0.8876099192477288 ， 
3: 1.0210657329557034， 


4: -0.21799201419817044, 
5: 1.1388001234975833,，, 
6: -0.5209890532927175} 


许多 Python 对 象 都 被 格式 化 为 可 读 性 更 好 (或 
者 说 排版 更 好 ) 的 形式 ， 这 跟 print 的 普通 输出 形式 
有 着 显著 区 别 。 如 果 在 标准 Python 解 释 器 中 打印 上 
面 那个 字典 对 象 ， 其 可 读 性 惑 没 那么 好 了 : 
>>> from numpy.random import randn 
。 ae randn() for i in range(7)} 
{0: -1.5948255432744511, 1: 0.10569006472787983，2: 1.97236713 


3: 0.15455217573074576，4: -0.24058577449429575, 5: -1.2904897 
6: 0.3308507317325902} 


IPython 还 可 以 方便 地 执行 任意 代码 块 《〈 通 过 少 
量 优雅 的 复制 粘贴 操作 ) 和 整个 Python 脚本 。 稍 后 
束 会 对 该 功能 进行 介绍 。 


Tab 键 和 目 动 完成 


从 表面 上 看 ，IPython 就 像 是 一 个 化 了 淡妆 的 交 
互 式 Python 解释 左 。 数 学 软件 〈Mathematica) 用 户 
可 能 会 对 标号 式 的 输入 输出 提示 符 眼 熟 。Tab 键 自 
动 完成 功能 是 对 标准 Python shell 的 主要 改进 之 一 ， 
大 部 分 交互 式 数 据 分 析 环 境 都 有 这 个 功能 。 在 shell 
中 输入 表达 式 时 ， 只 要 按 下 Tab 键 ， 当 前 命名 空间 
中 任何 与 已 输入 的 字符 串 相 匹配 的 变量 〈 对 象 、 团 
数 等 ) 束 会 修 找 出 来 : 








In [1]: an_apple = 27 
In [2]: an_example = 42 


In [3]:an<Tab> 2 
an_apple and an_example any 3 


在 这 个 例子 中 可 以 看 到 ，IPython 将 我 定义 的 两 
个 变量 都 显示 出 来 了 ， 此 外 还 显示 了 Python 关键 字 
and 和 内 置 函 数 any。 当 然 ， 你 也 可 以 在 任何 对 象 后 
面 输入 一 个 句点 以 便 自动 完成 方法 和 属性 的 输入 : 


in [3]: b = [1i, 2, 3] 














In [4]: b.<Tab> 
b.append b.extend b.insert b.remove b.sort 
b.count b.index b ,pop b ,reverse 


还 可 以 应 用 在 模块 上 : 


In [1]: import datetime 


In [2]: datetime.<Tab> 


datetime .MAXYEAR datetime.datetime datetime.timedel 
datetime .MINYEAR datetime.datetime CAPI datetime.tzinfo 
datetime.date datetime.time 


注意 : IPython 默 认 会 隐藏 那些 以 下 划 线 开头 
的 方法 和 属性 ， 比 如 魔术 方法 (magic method) 以 
及 内 部 的 “私有 ?方法 和 属性 ， 其 目的 是 避免 在 屏幕 
上 显示 一 堆 乱 七 八 粳 的 东西 〈 也 为 了 避免 把 Python 
新 人 搞 坚 ! ) 。 其 实 这 些 也 是 可 以 通过 Tab 键 自动 
完成 的 ， 只 是 你 得 先 输入 一 个 下 划 线 才 行 。 如 果 你 








就 是 喜欢 能 总 是 看 到 这 些 方法 ， 直 接 修改 IPython 配 
置 文 件 中 的 相关 设置 束 可 以 了 。 


Tab 键 自动 完成 功能 不 只 可 以 用 于 搜索 命名 空 
间 和 上 自动 完成 对 象 或 模块 属性 。 当 你 输入 任何 看 上 
去 像 是 文件 路 径 的 东西 时 《即使 是 在 一 个 Python 字 
从 串 中 ) ， 按 下 Tab 键 即 可 找 出 电脑 文件 系统 中 与 
之 匹配 的 东西 : 














In [3]: book_scripts/<Tab> 4 


book_scripts/cprof_example.py book_scripts/ipython_ 
book_scripts/ipython_bug.py book_scripts/prof_mod 
In [3]: path = 'book_scripts/<Tab> 

book_scripts/cprof_example.py book_scripts/ipython 


book_scripts/ipython_bug.py book_scripts/prof_mod 


如 果 再 结合 %run 命 令 〈 人 参见 后 面 内 容 ) ， 该 功 
能 将 显 和 车 减少 你 禹 键盘 的 次 数 。 


Tab 键 目 动 完成 功能 还 可 用 于 函数 关键 字 参 数 
(包括 等 号 (=) ! ) 。 


译注 1: 从 输入 输出 提示 符 来 看 ， 作 者 在 这 两 段 之 
则 做 了 不 少 事情 ， 所 以 如 果 出 现 randn 找 不 到 的 情 
况 ， 请 先 执行 from numpy.random import randn。 
详 注 2: 后 面 的 <Tab> 只 是 一 个 按键 说 明 而 已 ， 不 用 
和 输入。 顺便 说 明 一 下 ， 投 完 Tab 键 之 后 ， 已 输入 的 
内 容 会 在 下 一 行 重复 出 现 ， 行 号 也 是 一 样 的 ， 直 接 








接 看 往 下 输入 融 行 了 。 

译注 3: 根据 软件 版 本 、 配 置 以 及 当前 上 下 文 的 不 
同 ， 这 里 得 到 的 结果 可 能 会 比 书 上 的 多 。 

译注 4: 注意 ， 要 使 用 正和 斜 杠 (/) ， 不 然 认 不 出 
来 。 此 外 ， 文 件 夹 或 文件 名 中 间 不 能 有 空格 ， 不 然 
也 无 法 正 第 继续 操作 。 





内 汀 


在 变量 的 前 面 或 后 面 加 上 一 个 问号 〈?) 束 可 
以 将 有 关 该 对 象 的 一 些 通用 信息 显示 出 来 : 


In [545]: b? 





Type: list 
String Form:[1, 2, 3] 
Length: 3 
Docstring: 


list() -> new empty list 
list(iterable) -> new list initialized from iterable's items 


这 就 叫做 对 象 内 省 (object introspection〉 
?。 如 果 该 对 象 是 一 个 函数 或 实例 方法 ， 则 其 
docstring 《如 果 有 的 话 〉 也 会 被 显示 出 来 : 


def add_numbers(a, b): 





Add two numbers together 
Returns 


the_sum : type of arguments 


return a + b 


然后 可 以 利用 ?来 显示 这 上 段 docstring: 


In [547]: add_numbers? 


Type : function 
String Form:<function add_numbers at Ox5fad848> 
File: book_scripts/<ipython-input-546-5473012eeb65> 


Definition: add_numbers(a, b) 


Docstring: 
Add two numbers together 
Returns 


the_sum : type of arguments 


使 用 ?? 还 将 显示 出 该 函数 的 源 代码 (如 果 可 能 
的 话 ) : 


In [548]: add_numbers?? 

Type : function 

String Form:<function add_numbers at Ox5fad848> 

File: book_scripts/<ipython-input-546-5473012eeb65> 
Definition: add_numbers(a, b) 

SOUrce : 

def add_numbers(a, b): 


Add two numbers together 
Returns 


the_sum : type of arguments 


return a + b 


?还 有 一 个 用 法 ， 即 搜索 IPython 命 名 空间 ， 类 
似 于 标准 UNIX 或 Windows 命 令 行 中 的 那 种 用 法 。 
一 些 字符 再 配 以 通配符 (*) 即 可 显示 出 所 有 与 该 
通配符 表达 式 相 匹配 的 名 称 。 例 如 ， 我 们 可 以 列 出 
NumpPy 顶 级 命名 空间 中 含有 "load" 的 所 有 函数 : 


In [549]: np.*load*? 
np.1load 

np.1loads 

np.loadtxt 
np.pkgload 





o%run 命 令 


在 IPython 会 话 环 境 中 ， 所 有 文件 部 可 以 通 
过 %run 命 令 当 做 Python 程序 来 运行 。 假 设 你 在 
ipython_script_test.py 中 存放 了 一 段 简单 的 脚本 ， 如 
下 所 示 : 


def f(x, yy, 2) ODOO 
return (x + y)/z 





5 
6 
7.5 


result =fla bo 
只 要 将 文件 名 传 给 %run 束 可 以 运行 了 : 


In [550]: %run ipython Script test ,byFE6 


脚本 是 在 一 个 空 的 命名 空间 中 运行 的 (没有 任 
何 import， 也 没有 定义 任何 其 他 的 变量 ) ， 所 以 其 
行为 应 该 跟 在 标准 命令 行 环境 (通过 python 
script.py 司 动 的 ) 中 执行 时 一 样 。 此 后 ， 该 文件 中 
所 定义 的 全 部 变量 (还 有 各 种 import、 函 数 和 全 局 
变量 ) 就 可 以 在 当前 IPython shell 中 访问 了 《除非 
及 生 了 有 弄 币 ) : 


In [551]:CcC 
Out[551]: 7.5 





In [552]: result 


Out[552]: 1.4666666666666666 


如 果 Python 脚 本 需要 用 到 命令 行 参 数 〈 通 过 
sys.argv 访 问 ) ， 可 以 将 参数 放 到 文件 路 径 的 后 
面 ， 残 像 在 命令 行 上 执行 那样 。 

注意 : 如 采 和 希 望 脚本 能 够 访问 在 交互 式 


IPython 命 名 空间 二 注 7 中 定义 的 变量 ， 那 就 应 该 使 
用 %run i 而 不 是 %run。 








中 断 正在 执行 的 代码 


任何 代码 在 执行 时 【无论 是 通过 %run 执 行 的 脚 
本 ， 还 是 长 时 间 运 行 的 命令 ) ， 只 要 按 下 "Ctrl- 
C"， 就 会 引发 一 个 KeyboardInterrupt。 除 一 些 非常 
特殊 的 情况 之 外 ， 绝 大 部 分 Python 程序 都 将 立即 俘 


警告 : 当 Python 代 码 已 经 调用 了 某 个 已 编译 的 
扩展 模块 时 ， 按 下 "Ctrl-C" 将 无 法 使 程序 立即 停止 
执行 。 在 这 种 情况 下 ， 要 么 只 能 等 竺 python 解释 器 
重新 获得 控制 权 ， 要 么 只 能 通过 操作 系统 的 任务 管 
理 器 强制 终止 Python 进程 〈 比 较 极 端的 情况 下 才 需 
要 这 人 么 干 ) 。 


执行 况 巾 极 中 的 代码 











在 IPython 中 执行 代码 的 最 简单 方式 是 粘贴 筋 贴 
板 中 的 代码 。 虽 然 这 种 做 法 很 粗糙 ， 但 在 实际 工作 
中 却 很 有 用 。 比 如 说 ， 在 开发 一 个 复 茶 或 费时 的 应 
用 程序 时 ， 你 可 能 希望 能 一 段 一 段 地 执行 脚本 ， 以 
便 碍 看 各 个 阶段 所 加 载 的 数据 以 及 产生 的 结 末 。 又 
比如 说 ， 你 在 网 上 找 了 一 段 合用 的 代码 ， 但 又 不 想 
专门 为 其 新 建 一 个 .py 文件 。 


多 数 情 况 下 ， 我 们 都 可 以 通过 "Ctrl-Shift-V" 将 
剪贴 板 中 的 代码 片段 粘贴 出 来 38。 注意 ， 这 并 不 
是 万 试 万 灵 的 ， 因 为 这 种 粘贴 方式 模拟 的 是 在 
IPython 中 逐 行 输入 代码 ， 换 行 符 会 被 处 理 为 
<return>。 世 就 是 说 ， 如 果 你 所 粘贴 的 是 一 段 缩 进 
代码 ， 且 其 中 有 一 个 空 行 ，IPython 融 会 认为 缩 进 在 
空 行 那里 结束 了 。 当 执行 到 缩 进 块 后 面 那 行 代码 
时 ， 残 会 引发 一 个 IndentationError。 例 如 下 面 这 上 段 
代码 : 











直接 粘贴 是 不 行 的 : 
In [1]: x = 5 


In [2]: y = 7 


In [3]: if x > 5: 
让 X += 工 


In [4]: y=8 
IndentationError: unexpected indent 


If you want to paste code into IPython, try the %paste and %cF 
正如 错误 提示 信息 所 说 的 那样 ， 我 们 应 该 使 
用 9%paste 和 %cpaste 这 两 个 魔术 困 数 。9%paste 可 以 承 
载 剪贴 板 中 的 一 切 文本 29， 并 在 shell 中 以 整体 形 
式 执行 党 注 10， 


In [6]: %paste 


X = 三 5 

y = 7 

if x > 5: 
X += 1 
y= 8 


## -- End pasted text -- 


警告 : 根据 你 的 系统 平台 以 及 Python 的 安装 情 
况 ，%paste 可 能 会 不 起 作用 。EPDFree (在 第 1 革 中 
介绍 过 ) 等 打包 发 布 的 版 本 应 该 没有 问题 。 


%cpaste 跟 9%paste 差 不 多 “ 斌 11， 只 不 过 它 多 出 
了 一 个 用 于 粘贴 代码 的 特殊 提示 和 从 而 已: 


In [7]: %cpaste 

Pasting code; enter '--' alone on the line to stop or Use Ctrl] 
:X= 5 

‘y=7 








对 于 9%cpaste 块 ， 在 最 终 执 行 之 前 ， 你 想 粘 贴 
多 少 代 码 瓯 粘贴 多 少 。 如 采 想 在 执行 那些 粘贴 进去 
的 代码 之 前 先 检查 一 番 ， 就 可 以 考虑 使 
用 %cpaste。 如 果 发 现 粘 贴 的 代码 有 错 ， 只 需 投 
下 "Ctrl-C" 即 可 终止 %cpaste 提 示人 符 。 


后 面 我 将 会 介绍 IPython HTML Notebook， 它 
使 我 们 能 以 一 种 基于 浏览 器 的 notebook 格 式 逐 段 对 
可 执行 代码 单元 进行 分 析 。 


IPython 跟 编辑 器 和 IDE 之 间 的 交互 


某 些 文本 编辑 器 〈 如 Emacs 和 vim) 和 涡 有 一 些 能 
ee 
详情 请 参考 IPython 网 站 或 搜索 引擎 


菏 些 IDE〈 如 PyDev plugin for Eclipse 和 Python 
Tools for vy Studio 微 软 出 品 )) 都 集成 了 
IPython 终 端 应 用 程序 。 如 果 你 既 想 用 IDE 又 不 想 放 
弃 Ipython 控 制 台 ， 这 可 能 是 个 不 错 的 选择 。 


键盘 快捷 键 





IPython 提 供 了 许多 用 于 提示 符 守 航 (Emacs 文 
本 编辑 器 或 UNIX bash shell 的 用 户 对 此 会 很 熟悉 ) 
和 查阅 历史 shell 命 令 ( 详 见 下 一 节 ) 的 键盘 快捷 
键 。 表 3-1 总 结 了 最 常用 的 一 些 快捷 键 。 图 3-1 说 明 
了 几 个 光标 移动 快捷 键 的 功能 。 








C-b C-f 
4 一 一 
In [27]: a variable In [27]: a vari Ck 
C-a C-e In [27] ” C-u 











图 3-1: 几 个 IPython 键 盘 快 捷 键 的 用 法 


表 3-1: IPython 标 准 键盘 快捷 键 


命令 说 明 

Ctrl-P 或 上 箭头 键 后 向 搜索 命令 历史 中 以 当前 输入 的 文本 开头 的 命令 
Ctrl-N 或 下 箭头 键 前 向 搜索 命令 历史 中 以 当前 输入 的 文本 开头 的 命令 
Ctrl-R 按 行 读 取 的 反 向 历史 搜索 (部 分 匹配 ) 
Ctrl-Shift-v 从 剪贴 板 粘 贴 文本 

EEC 中 止 当前 正在 执行 的 代码 

Ctrl-A 将 光标 移动 到 行 首 

Ctrl-E 将 光标 移动 到 行 尾 

Ctrl-K 删除 从 光标 开始 至 行 尾 的 文本 

Ctrl-U 清除 当前 行 的 所 有 文本 译注 1 

Ctrl-F 将 光标 向 前 移动 一 个 字符 

trl-b 将 光标 向 后 移动 一 个 字符 

Ctrl-L 清 屏 





译注 12: 这 个 快捷 键 的 功能 只 是 跟 Ctrl-K 相 反 
而 已 ， 即 删除 从 光标 开始 至 行 首 的 文本 ， 并 非 完全 





删除 。 
异种 和 跟踪 


如 果 %run 某 段 脚本 或 执行 某 条 语句 时 发 生 了 异 
钊 ，IPython 默 认 会 输出 整个 调用 栈 跟 踩 
(traceback) ， 其 中 还 会 附 上 调用 栈 各 点 附近 的 几 
行 代码 作为 上 下 文 参 考 ，。 


In [553]: %run cho3/ipython_bug .py 








AssertionError Traceback (most rece 
/home/wesm/code/ipython/IPython/utils/py3compat.pyc in execfil 


176 else: 

177 filename = fname 
--> 178 _ builtin .execfile(filename, *where) 
book_scripts/ch03/ipython_bug.py in <module>() 

13 throws_an_exception() 

14 


---> 15 calling_ things() 
book_scripts/ch03/ipython_bug.py in calling_things() 
11 def calling_things(): 
12 works_fine() 
--> 13 throws_an_exception() 


15 calling_ things() 
book_scripts/ch03/ipython_bug.py in throws_an_exception() 


7 a = 5 
8 b = 6 
----> 9 assert(a + b == 10) 
10 
11 def calling_things(): 
AssertionError: 


拥有 额外 的 上 下 文 代码 参考 是 它 相 对 于 标准 


Python 解 释 器 的 一 大 优势 。 上 下 文 代码 参考 的 数量 

可 以 通过 %xmode 魔 术 命 令 进行 控制 ， 既 可 以 少 
与 标准 Python 解释 器 相同 ) 也 可 以 多 《市 有 函数 

参数 值 以 及 其 他 信息 ) 。 本 章 稍 后 还 会 讲 到 如 何在 

发 生 寞 党 之 后 进入 跟 躁 栈 进行 交互 式 的 事后 调试 
(post-mortem debugging) 。 


IPython 有 一 些 特殊 命令 (被 称 为 魔术 命令 
(Magic Command) ) ， 它 们 有 的 为 常见 任务 提供 
便利 ， 有 的 则 使 你 能 够 轻松 控制 IPython 系 统 的 行 
为 。 麻 术 命 令 是 以 特 分 号 % 为 前 缀 的 命令 。 例 如 ， 
你 可 以 通过 %timeit 这 个 魔术 命令 检测 任意 Python 语 
全 《如 矩阵 乘法 ) 的 执行 时 间 《“ 稍 后 将 对 此 进行 详 
细 讲 解 ) : 


In [554]: a = np.random.randn(100, 100) 








In [555]: %timeit np.dot(a, a) 
10000 loops, best of 3: 69.1 us per loop 


魔术 命令 可 以 看 做 运行 于 IPython 系 统 中 的 命令 
行程 序 。 它 们 大 都 还 有 一 些 “ 命 令 行 选项 *”， 使 用 ? 
即 可 簿 看 其 选项 : 


In [1]: %reset? 
Resets the namespace by removing all names defined by the user 


Parameters 


-f : force reset without asking for confirmation. 


-S : 'Soft' reset: Only clears your namespace, leaving histc 
References to objects may be kept. By default (without this 
we do a 'hard' reset, giving you a new session and removing 
references to objects from the current session. 


Examples 


In [7]: a 
Out[7]: 1 


In [8]: 'a' in _ip.user_ns 
Out[8]: True 


In [9]: %reset -f 


In [1]: 'a' in _ip.user_ns 
Out[1]: False 


魔术 命令 默认 是 可 以 不 市 百 分 号 使 用 的 ， 只 要 
没有 定义 与 其 同名 的 变量 即 可 。 这 个 技术 叫做 
automagic， 可 以 通过 %automagic 打 开 或 关闭 。 


由 于 可 以 在 IPython 系 统 中 直接 访问 它 的 文科 |， 
因此 我 建议 你 浏览 一 下 所 有 这 些 特 殊 的 命令 ( 输 
入 %dquickref 或 %magic 即 可 ) 。 我 将 着 重 讲 解 几 个 
重要 的 有 助 于 交互 式 计算 和 Python 开发 的 魔术 命 


今 。 








表 3-2: 常用 的 IPython 魔 术 命令 





命令 说 明 
%quickref 显示 IPython 的 快速 参考 
%magic 显示 所 有 魔术 命令 的 详细 文档 
%debug 从 最 新 的 异常 跟踪 的 底部 进入 交互 式 调试 器 
%hist 打印 命令 的 输入 (可 选 输出 ) 历史 
%pdb 在 异常 发 生 后 自动 进入 调试 器 
%paste 执行 剪贴 板 中 的 Python 代 码 
表 3-2: 常用 的 IPython 魔 术 命 令 ( 续 ) 
命令 说 明 
%cpaste 打开 一 个 特殊 提示 符 以 便 手工 粘贴 待 执 行 的 Python 代 码 
%reset 删除 interactive 命 名 空间 中 的 全 部 变量 /名 称 
9%page OBJECT 通过 分 页 器 打印 输出 OBJECT 
%run script .py 在 IPython 中 执行 一 个 Python 脚本 文件 
%prun statement 通过 cProfile 执 行 statement， 并 打印 分 析 器 的 输出 结果 
%time statement 报告 statement 的 执行 时 间 
ytimeit statement 多 次 执行 statement 以 计算 系 综 平 均 执行 时 间 。 对 那些 执行 时 


间 非 常 小 的 代码 很 有 用 
9%who、%who ls、%whos 显示 interactive 命 名 空间 中 定义 的 变量 ， 信 息 级 别 / 郊 余 度 可 变 
%xdel variable 删除 variable， 并 尝试 清除 其 在 IPython 中 的 对 象 上 的 一 切 引 用 





基于 Qt 的 富 GUI 控 制 台 


IPython 团 队 开 发 了 一 个 基于 Qt 框架 (其 目的 是 
为 终端 应 用 程序 提供 诸如 内 髓 图 片 、 多 和 六 语 
法 高 亮 之 类 的 宇文 本 编辑 功能 ) 的 GUI 控制 合 《〈 见 
图 3-2) 。 如 果 你 已 经 安装 了 PyQt 或 PySide， 使 用 下 
面 这 条 命令 来 启动 的 话 即 可 为 其 添加 绘图 功能 





ipython qtconsole --pylab=inline 


Qt 控制 合 可 以 通过 标签 页 的 形式 局 动 多 个 
IPython 进 程 ， 这 就 使 你 能 够 在 多 个 任务 之 间 轻 松 切 
换 。 它 也 可 以 跟 IPython HTML Notebook 应 用 程序 
共享 同一 个 进程 ， 稍 后 我 将 专门 对 此 进行 讲解 。 


matplotlib 集 成 与 pylab 模 式 


导致 IPython 广 泛 应 用 于 科学 计算 领域 的 部 分 原 
是 它 能 跟 matplotlib 这 样 的 库 以 及 其 他 GUI 工 具 集 
默契 配合 。 即 使 你 从 未 使 用 过 matplotlib 也 不 用 担 
心 ， 本 书 稍 后 会 对 其 进行 详细 讲解 。 如 果 在 标准 
Python shell 中 创建 一 个 matplotlib 绘 图 窗口 ， 你 就 会 
郁 问 地 发 现 ，GUI 的 事件 循环 会 接管 Python 会 话 的 
控制 权 ， 直 到 该 绘图 窗口 关闭 为 止 。 这 目 然 无 法 实 
现 交 互 式 的 数据 分 析 和 可 视 化 ， 因 此 IPython 对 各 个 
GUI 框架 进行 了 专门 的 处 理 以 使 其 能 够 跟 shell 配 合 
得 天 衣 无 颖 。 

通 弟 ， 我 们 通过 在 局 动 IPython 时 加 上 -- 
pylab 〈 注 意 是 两 个 短 划 线 ) 标记 来 集成 
matplotlib 〈 见 多 3-3) 。 


$ ipython --pylab 


> IPython 
Fle Edit View Kernel Magic Windew Help 
r more information, type 'help{pylab)'. 


: ing = plt.imread('book_ scripts/chO3/stinkbug .png') 


: imshow(img) 
: <matplotl1ib.1mage.AxesImage at Ox42ece50> 





plot(randn(1000) .cumsum() ) 
<matplotlib, lines.Line2D at Dx45406d0>] 


n : 
: [<ma 
5 














图 3-2: IPython 的 Qt 控制 台 


这 样 会 导致 几 个 结果 。 第 一 ，IPython 会 局 用 默 
认 GUI 后 台 和 集成， 这 样 matplotlib 绘 图 窗口 的 创建 就 
没 问 题 了 。 第 二 ，NumPy 和 matplotlib 的 大 部 分 功能 
会 被 引入 到 最 顶层 的 interactive 命 名 空间 以 产生 一 个 
区 互 式 的 计算 环境 (融和 像 MATLAB 和 其 他 领域 特定 
型 科学 计算 环境 那样 ) 。 也 可 以 通过 %gui 对 此 进行 
手工 设置 (详情 请 执行 %gui?〉 。 


译注 5: 也 有 译作 内 视 、 目 省 的 ， 不 过 更 多 译作 内 
和 省。 

译注 6: 注意 文件 的 路 径 ， 这 里 实际 上 用 的 是 默认 
路 径 。 人 简单 一 点 的 办 法 束 是 直接 写 绝 对 路 符 ， 肯 定 
不 出 销 。 

译注 7， 该 命名 空间 的 名 字 束 是 interactive。 

译注 8: Windows 中 此 法 行 不 通 ， 需 要 用 右键 来 单 
中 的 粘贴 功能 ， 天 则 仪 显示 第 一 行 。 

译注 9: 注意 ， 这 里 说 的 是 “一 切 ”。 

译注 10: 注意 ， 由 于 是 立即 整体 执行 ， 所 以 不 要 复 
制 %paste。 没 事 干 的 话 倒是 可 以 试 试 。 

译注 11: 建议 始终 用 这 人 个， 虽然 稍微 贱 烦 一 点 ， 但 
是 出 错 的 可 能 性 小 很 多 。 





便 用 命令 历史 


IPython 维 护 着 一 个 位 于 人 硬盘 上 的 小 型 数据 库 ， 
0 
上 目的 : 


“上 到 


只 需 很 少 的 按键 次 数 即 可 搜索 、 目 动 完 成 并 
沁 行 之 前 已 经 换行 过 的 命 信 


在 会 话 间 持久 化 命令 历史 。 
.将 输入 /输出 历史 记录 到 日 志文 件 。 
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图 3-3: pylab 模 式 : IPython 和 matplotlib 窗 口 
搜索 并 重用 命令 历史 


对 于 许多 人 来 说 ， 能 够 搜索 并 执行 前 面 的 命令 
是 非常 有 用 的 功能 。IPython 倡 导 的 是 一 种 迭代 的 、 
交互 式 的 开 友 模式 : 你 可 能 曲 种 会 及 现 目 己 总 是 在 
重复 输入 相同 的 命令 (比如 %run 命 令 或 其 他 的 代码 
瞩 段 ) 。 假 设 你 已 经 执行 了 : 


In[7]: %run first/second/third/data_ script.py 


而 在 伍 看 其 执行 结果 后 (假设 其 已 经 成 功 执行 
完毕 ) 发 现 计 算 过 程 不 对 。 在 找 出 问题 原因 并 修改 
了 data_script. py 之 后 ， 只 需 输 入 %run 命 令 的 前 几 个 
字符 并 按 "Ctrl-P" 键 或 上 租 头 键 即 可 。 这 样 开会 搜索 
出 命令 历史 中 第 一 个 与 你 输入 的 字符 相 匹 配 的 命 
令 。 多 次 按 "Ctrl-P" 键 或 上 第 关键 束 会 在 命令 历史 中 
不 断 搜 索 。 如 果 你 错过 了 想 要 的 那 条 命令 也 没 关 
系 ， 你 可 以 按 "Ctrl-N" 键 或 下 区 头 键 在 命令 历史 中 
前 回 搜 索 。 只 要 多 操作 几 次 ， 以 后 你 会 想 都 不 想 地 
按 下 这 些 键 ! 


"Ctrl-R" 用 于 实现 部 分 增 量 搜索 ， 跟 UNIX 型 
shell 中 的 readline 所 提供 的 功能 一 样 。 在 Windows 
上 ，IPython 模 拟 了 readline 功 能 。 按 下 "Ctrl-R" 并 输 








入 你 想 搜 索 的 行 中 的 几 个 字符: 
In [1]: a_command = foo(x, y, 2z) 


(reverse-i-search) com': a command = foo(x, y, Zz) 


按 下 "Ctrl-R" 将 会 循环 搜索 命令 历史 中 每 一 条 
与 输入 相符 的 行 。 


输入 和 输出 变量 


在 记 把 函数 结果 赋值 给 变量 是 一 件 让 人 很 郁 间 
的 事情 。 好 在 IPython 会 将 输入 〔 你 输入 的 那些 文 
本 ) 和 输出 (返回 的 对 象 》 的 引用 保存 在 一 些 特殊 
变量 中 。 最 近 的 两 个 输出 结 末 分 别 保存 在 _《〈 一 个 
下 划 线 ) 和 _ 两 个 下 划 线 〉 变量 中 : 


In [556]: 2 ** 27 
Out[556]: 134217728 





In [557]: _ 
out [557]: 134217728 


输入 的 文本 被 保存 在 名 为 .这 的 变量 中 ， 其 中 X 
是 输入 行 的 行 写 。 每 个 输入 变量 都 有 一 个 对 应 的 输 
出 变量 X。 比 如 说 ， 在 输入 完 第 27 行 后 ， 束 会 产生 
两 个 新 变量 _ 27 (输出 变量 ) 和 _i27 (输入 变量 ) 。 
In [26]: foo = 'bar' 


In [27]: foo 


Out[27]: bar， 


In [28]: _i27 
Out[28]: u'foo' 


In [29]: _27 
Out[29]: 'bar' 








由 于 输入 变量 是 字符 串 ， 因 此 可 以 用 Python 的 
exec 关 键 字 重新 执行 : 


In [30]: exec _i27 


有 几 个 魔术 命令 可 用 于 控制 输入 和 输出 历史 。 
%hist 用 于 打印 全 部 或 部 分 输入 历史 ， 可 以 选择 是 否 
带 行 号 。%reset 用 于 清空 interactive 命 名 空间 ， 并 可 
选择 是 否 清 空 输 入 和 输出 缓存 。%xdel 用 于 从 
IPython 系 统 中 移 除 特定 对 象 的 一 切 引 用 。 详 细 信 息 
请 参考 相应 魔术 命令 的 文档 。 


警告 : 在 处 理 非常 大 的 数据 集 时 ， 一 定 要 注意 
IPython 的 输入 输出 历史 ， 它 会 导致 所 有 对 象 引 用 都 
无 法 被 垃圾 收集 器 处 理 〈( 即 释放 内 存 ) ， 即 使 用 del 
关键 字 将 变量 从 interactive 命 名 空间 中 删除 也 不 行 。 
对 于 这 种 情况 ， 齐 慎 地 使 用 %xdel 和 9%reset 将 有 助 于 
避免 出 现 内 存 方面 的 问题 。 


记录 输入 和 输出 











IPython 能 够 记录 整个 控制 台 会 话 ， 包 括 输入 和 
输出 。 执 行 %logstart 即 可 开始 记录 日 志 : 


In [3]: %logstart 
Activating auto-logging. Current session state plus future inp 


Filename : ipython_ log.py 
Mode : rotate 

Output logging : False 

Raw input log : False 
Timestamping : False 

State : active 





IPython 的 日 志 功 能 可 以 在 任何 时 刻 开 局 ， 它 将 
记录 你 的 整个 会 话 〈 包 括 此 前 的 命令 ) 。 因 此 ， 如 
果 你 在 写 代码 的 过 程 中 ， 突 然 想 要 保存 所 有 工作 的 
时 候 ， 直 接 启 动 日 志 功 能 就 行 了 。%logstart 的 具体 
选项 《比如 修改 输出 文件 路 径 ) 请 参考 其 文档 ， 此 
外 还 可 以 看 看 几 个 与 之 配套 的 魔术 命令 %logoff、 
%logon、%logstate 以 及 %logstop。 


与 操作 系统 交互 


IPython 的 为 一 个 香 要 特点 就 是 它 跟 操作 系统 
shell 结 合 得 非常 紧密 。 也 就 是 说 ， 你 可 以 直接 在 
IPython 中 实现 标准 的 Windows 或 UNIX (Linux、OS 
X) 命令 行 活动 。 比 如 执行 shell 命 令 、 更 改 目 录 、 
将 命令 的 执行 结果 保存 在 Python 对 象 〈 列 表 或 字符 
串 ) 中 每 。 此 外 ， 它 还 提供 了 shell 命 令 别 名 以 及 日 
录 书 签 等 功能 。 


表 3-3 总 结 了 用 于 调用 Shell 命 令 的 魔术 命令 及 其 
语法 。 我 将 在 后 面 几 节 中 简要 介绍 这 些 功能 。 


表 3-3: 跟 系 统 相关 的 IPython 魔 木 命令 





命令 说 明 

lIcmd 在 系统 shell 中 执行 cmd 

output = Icmd args 执行 cmd， 并 将 stdout 存 放 在 output 中 
%alias alias_name cmd 为 系统 shell 命 令 定 义 别名 

%bookmark 使 用 IPython 的 目录 书签 系统 

%cd directory 将 系统 工作 目录 更 改 为 directory 
%pwd 返回 系统 的 当前 工作 目录 

%pushd directory 将 当前 目录 入 栈 ， 并 转向 目标 目录 
%popd 弹出 栈 顶 目录 ， 并 转向 该 目录 


9%dirs 返回 一 个 含有 当前 目录 栈 的 列表 





表 3-3: 跟 系 统 相关 的 IPython 魔 木 命令 〈 续 ) 


命令 说 明 
%dhist 打印 目录 访问 历史 
%env 以 dict 形 式 返回 系统 环境 变量 





shell 命 令 和 别名 


在 IPython 中 ， 以 感叹 号 (!) 开头 的 命令 行 表 
示 其 后 的 所 有 内 容 需 要 在 系统 shell 中 执行 。 也 就 是 
说 ， 你 可 以 删除 文件 (根据 OS 的 不 同 ， 使 用 rm 或 
del) 、 修 改 目 录 或 执行 任意 其 他 处 理 过 程 。 甚 至 还 
可 以 启动 一 些 能 将 控制 权 从 IPython 手 中 夺 走 的 进程 
(比如 男 外 再 启动 一 个 Python 解 释 嚣 〉: 


In [2]: !python 

Python 2.7.2 |EPD 7.1-2 (64-bit)| (default, Jul 3 2011, 15:17 
[GCC 4.1.2 20080704 (Red Hat 4.1.2-44)] on linux2 

Type "packages", "demo" or "enthought" for more information. 
>>> 


此 外 ， 还 可 以 将 shell 命 令 的 控制 台 输 出 存放 到 
变量 中 ， 只 需 将 ! 开头 的 表达 却 赋 值 给 变量 即 可 。 
例如 ， 我 的 Linux 电 脑 通过 以 太 网 连接 到 互联 网 ， 

于 是 可 以 将 我 的 耳 地 址 存 到 一 个 Python 变量 中 去 : 


译注 13 





In [1]: ip_info = !ifconfig etho | grep "inet" 


In [2]: ip_info[0].strip() 
Out[2]: 'inet addr:192.168.1.137 Bcast:192.168.1.255 Mask:25 








返回 的 Python 对 象 ip_info 实 际 上 是 一 个 含有 控 
制 台 输出 结果 的 目 定义 列表 类 型 。 


在 使 用 ! 时 ，IPython 还 允许 使 用 当前 环境 中 定 
义 的 Python 值 。 只 需 在 变量 名 前 面 加 上 美元 符号 
($) 即 可 : 译注 14 

















In [3]: foo = "test*' 
In [4]: !ls $foo 
test4.py test.py test.xml 
魔术 命令 %alias 可 以 为 Shell 命 令 目 定义 简称 。 
例如 : 
In [1]: %alias 11 ls -1 


In [2]: 11 /usr 


total 332 
drwxr-xr-x 2 root root 69632 2012-01-29 20:36 
drwxr-xr-x 2 root root 4096 2010-08-23 12:05 


drwxr-xr-x 123 root root 20480 2011-12-26 18:08 
drwxr-xr-x 265 root root 126976 2012-01-29 20:36 
drwxr-xr-x 44 root root 69632 2011-12-26 18:08 
lrwxrwxrwx 1 root root 3 2010-08-23 16:02 
drwxr-xr-x 15 root root 4096 2011-10-13 19:03 
drwxr -xr-x 2 root root 12288 2012-01-12 09 :32 
drwxr-xr-x 387 root root 12288 2011-11-04 22:53 
drwxrwsr-x 24 root src 4096 2011-07-17 18:38 


可 以 一 次 执行 多 条 命令 ， 只 需 将 它们 写 在 一 行 


上 并 以 分 写 阳 开 即 可 : 


In [558]: %alias test alias (cd ch08; ls; cd ..) 


由 





In [559]: test_alias 
macrodata.csv spx.csv tips.csv 


注意 ，IPython 会 在 会 话 结束 时 立即 “ 志 记 ”你 所 
定义 的 一 切 别 名 。 为 了 创建 永久 性 的 别名 ， 你 需要 
使 用 配置 系统 。 本 章 稍 后 会 对 此 进行 介绍 。 


目录 书签 系统 


IPython 有 一 个 简单 的 目录 书签 系统 ， 它 使 你 能 
保存 常用 目录 的 别名 以 便 实现 快速 跳 转 。 比 如 放 ， 
作为 一 名 狂热 的 Dropbox 用 户 ， 为 了 能 够 快速 地 转 
到 我 的 Dropbox 目 录 ， 我 可 以 定义 一 个 书签 : 


In [6]: %bookmark db /home/wesm/Dropbox/ 


在 定义 好 书签 之 后 ， 就 可 以 在 执行 魔术 命 
令 %cd 时 使 用 这 些 书签 J : 


In [7]: cd db 
(bookmark:db) -> /home/wesm/Dropbox/ 
/home/wesm/Dropbox 


如 果 书 签名 与 当前 工作 目录 中 的 某 个 目录 名 冲 
突 ， 可 以 通过 -b 标 记 〈( 其 作用 是 窗 写 ) 使 用 书签 目 
录 。%bookmark 的 -] 选 项 的 作用 是 列 出 所 有 书签 : 


In [8]: %bookmark -1 
Current bookmarks: 
db -> /home/wesm/Dropbox/ 


























书签 跟 别名 的 区 列 在 于 ， 它 们 会 被 目 动 持 久 
J 





评注 13: 之 前 已 经 说 过 ， 作 者 用 的 不 是 Windows 操 
作 系 统 ， 所 以 这 个 命令 目 然 无 法 执行 。Windows 上 
可 以 用 ipconfig， 但 毕竟 不 是 一 样 东 西 ， 这 里 的 代 
人 码 上 自己 能 看 明白 即 可 。 

译注 14: 在 Windows 中 ， 将 ls 换 成 dir。 








软件 开 友 工具 


IPython 不 仅 是 一 种 舒适 的 交互 式 计算 和 数据 分 
析 环 境 ， 同 时 也 非 第 适合 成 为 一 种 软件 开 友 环境 。 
在 数据 分 析 应 用 程序 中 ， 最 重要 的 事情 就 是 拥有 正 
确 的 代码 。 幸 运 的 是 ，IPython 紧 密集 成 并 加 强 了 
Python 内 置 的 pdb 调试 器 。 此 外 ， 你 还 希望 代码 运 
行 能 足够 快 。 为 此 ，IPython 提 供 了 一 些 简 单 易 用 的 
代码 运行 时 间 及 性 能 分 析 工 具 。 下 面 ， 我 将 对 这 些 
工具 做 一 个 详细 介绍 。 


交互 式 调试 大 


IPython 的 调试 占 增 强 了 pdb， 如 Tab 键 自动 完 
成 、 语 法 高 完 、 为 异常 跟踪 的 每 条 信息 添加 上 下 文 
参考 等 。 调 试 代码 的 最 佳 时 机 之 一 就 是 错误 刚刚 发 
生 那 会 儿 。%debug 命 令 〈 在 发 生 异 常 之 后 蕊 上 输 
入 ) 将 会 调用 那个 “事后 ”调试 器 ， 并 直接 跳 转 到 引 
发 异 各 的 那个 栈 帧 (stack frame) : 


In [2]: run cho3/ipython_bug .py 








AssertionError Traceback (most rece 
/home/wesm/book_scripts/ch03/ipython_bug.py in <module>() 
13 throws_an_exception() 


14 
---> 15 calling_things() 


/home/wesm/book_scripts/ch03/ipython_bug.py in calling_things( 
11 def calling_things(): 


12 works_finel() 
--> 13 throws_an_exception() 
14 


15 calling_things() 


/home/wesm/book_scripts/ch03/ipython_bug.py in throws_an_excep 


7 a=5 
8 b=6 
---->9 assert(a + b == 10) 
10 


11 def calling_things(): 
AssertionError: 


In [3]: %debug 
> /home/wesm/book_scripts/ch03/ipython_bug.py(9)throws_an_exce 


8 b = 6 
= 9 assert(a + b == 10) 
10 


ipdb> 


在 这 个 调试 器 中 ， 你 可 以 执行 任 音 Python 代码 
并 查看 各 个 栈 巾 中 的 一 切 对 象 和 数据 (也 就 是 解释 
器 还 “ 留 了 条 生路 ”的 那些 ) 。 默 认 是 从 最 低级 开始 
的 《 即 错误 发 生 的 地 方 )。 输 入 u (或 up〉 和 d 或 
down) 即 可 在 栈 跟踪 的 各 级 别 之 间 切 换 : 


ipdb> U 

> /home/wesm/book_scripts/cho03/ipython_bug.py(13)calling_ thing 
12 works_fine() 

---> 13 throws_an_exception() 
14 


执行 %pdb 命 令 可 以 让 IPython 在 出 现 异 常 之 后 
目 动 调用 调试 器 。 很 多 人 都 认为 这 是 一 个 非常 实用 


的 功能 。 


此 外 ， 调 试 器 还 可 以 为 代码 开发 工作 提供 帮 
助 ， 尤 其 是 当 你 想 要 设置 断 点 或 对 函数 /脚本 进行 单 
步调 试 以 查看 各 条 语句 的 执行 情况 时 。 实 现 这 个 目 
的 的 方式 有 几 个 。 第 一 ， 使 用 带 有 -d 选 项 的 %run 命 
令 ， 这 将 会 在 执行 脚本 文件 中 的 代码 之 前 先 打开 调 
试 器 。 必 须 立 即 输入 s (或 step) 才能 进入 脚本 : 于 
注 15 





In [5]: run -d cho3/ipython_bug .py 

Breakpoint 1 at /home/wesm/book_scripts/ch03/ipython_bug.py:1 
NOTE: Enter 'c' at the ipdb> prompt to start your script. 

> <string>(1)<module>() 


ipdb> s 
> g:\ipython_bug.py(1)<module>() 
1---> 1 def works_ fine(): 

2 a=5 

3 b=6 


在 此 之 后 ， 该 文件 接 下 来 的 执行 方式 束 全 任 你 
一 句 话 了 。 比 如 说 ， 在 上 面 那 个 异常 中 ， 我 们 可 以 
在 调用 works_fine 方 法 的 地 方 设置 一 个 断 点 ， 然 后 
输入 c (或 continue) 使 脚本 一 直 运 行 下 去 直到 该 断 
ANI: 


ipdb> b 12 

ipdb> c 

> /home/wesm/book_scripts/ch03/ipython_bug.py(12)calling_ thing 
11 def calling_things(): 

2--> 12 works_fine() 
13 throws_an_exception() 


这 时 可 以 单 步 进 入 works_fine() 或 执行 z 
works_fine()〔 输 入 n (或 next〉 直接 执 行 到 下 一 行 入 
(0 


ipdb> n 
> /home/wesm/book_scripts/ch03/ipython_bug.py(13)calling_ thinog 
2 12 works_fine() 
--> 13 throws_an_exception() 
14 


然后 ， 我 们 单 步 进入 throws_an_exception 并 前 
进 到 发 生 错 误 的 那 一 行 ， 查 看 在 此 范围 内 的 变量 。 
注意 ， 调 试 器 命令 的 优先 级 高 于 变量 名 。 这 时 在 变 
量 前 面 加 上 感叹 号 〈! ) 即 可 查看 其 内 容 。 





ipdb> s 

--Call-- 

> /home/wesm/book_scripts/ch03/ipython_bug.py(6)throws_an_exce 
5 

----> 6 def throws_an_exception(): 
7 a=5 

ipdb> n 


> /home/wesm/book_scripts/ch03/ipython_bug.py(7)throws_an_exce 
6 def throws_an_exception(): 


-->7 a = 5 
8 b = 6 
ipdb> n 
> /home/wesm/book_scripts/ch03/ipython_bug.py(8)throws_an_exce 
7 aa = 5 
--> 8 b = 6 
9 assert(a + b == 10) 
ipdb> n 
> /home/wesm/book_scripts/ch03/ipython_bug.py(9)throws_an_exce 
8 b = 6 


----> 9 assert(a + b == 10) 


要 想 精通 这 个 交互 式 调试 器 ， 必 须 经 过 大 量 的 
实践 才 行 。 表 3-4 列 出 了 该 调试 器 的 全 部 命令 。 如 
果 你 习惯 了 使 用 某 款 IDE， 刚 开始 用 这 种 终端 型 调 
试 器 的 时 候 可 能 会 觉得 有 点 麻烦 ， 但 慢 慢 就 会 习惯 
了 。 虽 然 大 部 分 Python IDE 都 拥有 优秀 的 GUI 调试 
器 ， 但 是 在 了 Python 中 调试 程序 却 往往 会 带 来 更 高 的 
生产 率 。 


表 3-4: (|)Python 调 试 器 命令 








命令 功能 

h(elp) 显示 命令 列表 

help command 显示 command 的 文档 
c(ontinue) 恢复 程序 的 执行 





功能 
退出 调试 器 ， 不 再 执行 任何 代码 
在 当前 文件 的 第 number 行 设置 一 个 断 点 


表 3-4: (|)Python 调 试 器 命令 ( 续 ) 
命令 

q(uit) 

b(reak) number 


b path/to/file .py:number 
s(tep) 

n(ext) 

u(p)/d(own) 

a(rgs) 

debug statement 

1(ist) statement 


w(here) 


在 指定 文件 的 第 humber 行 设置 一 个 断 点 

单 步 进入 函数 调用 

执行 当前 行 ， 并 前 进 到 当前 级 别 的 下 一 行 

在 函数 调用 栈 中 向 上 或 向 下 移动 
ee 

在 新 的 (递归 ) 调试 器 中 调用 语句 statement 
et ri lire 
打印 当前 位 置 的 完整 栈 跟踪 (包括 上 下 文 参 考 代 码 ) 





调试 右 的 其 他 使 用 场景 


除 上 面 提 到 的 之 外 ， 还 有 男 外 几 种 调用 调试 器 
的 手段 。 第 一 ， 使 用 set_trace 这 个 特别 的 函数 〔 以 
pdb.set_trace 合 命名 ) ， 这 闫 不 多 可 以 算 作 一 种 “穷人 
的 断 点 “下 1»”。 下 面 这 两 个 方法 可 能 会 在 你 的 日 党 
工作 中 派 上 用 场 〈 你 也 可 以 像 我 一 样 直接 将 其 添加 
到 IPython 配 置 中 ) : 


def Set_trace( ) : 
from IPython.core.debugger import Pdb 
Pdb(color_scheme='Linux').set_ trace(sys._getframe().f_back 
def debug(f, *args, **kwargs): 
from IPython.core.debugger import Pdb 
pdb = Pdb(color_scheme='Linux') 
return pdb.runcall(f, *args, **kwargs) 


第 一 个 函数 (set_trace) 非常 简单 。 你 可 以 将 
其 放 在 代码 中 任何 希望 停 下 来 查看 一 番 的 地 方 ( 比 
如 及 生 措 单 的 地 方 ) : 


In [7]: run cho3/ipython_bug .py 
> /home/wesm/book_scripts/ch03/ipython_bug.py(16)calling_ thino 








15 set_trace() 
---> 16 throws_an_exception() 
17 


按 下 c〔 或 continue) 仍然 会 使 代码 恢复 执行 ， 
不 受 任 何 有 影响 。 


男 外 那个 debug 函 数 使 你 能 够 耳 接 在 任意 函数 
上 使 用 调试 融 。 假 设 我 们 写 了 如 下 函数 : 
def f(x, y, z=1): 


tmp = X + y 
return tmp / Zz 


现在 想 对 其 进行 单 步 调试 。f 的 正常 使 用 方式 
应 该 类 似 于 f(1,2,z=3) 这 个 样子 。 为 了 能 够 单 步 进 入 
f， 将 f 作 为 第 一 个 参数 传 给 debug， 后 面 按 顺 序 再 跟 
上 各 个 需要 传 给 {的 关键 字 参 数 : 











In [6]: debug(f, 1, 2, z=3) 
> <ipython-input>(2)f() 
1 def f(x, y, Zz): 
--->2 tmp = X + y 
3 return tmp / Zz 


ipdb> 











我 及 现 这 两 个 函数 虽然 简单 ， 但 是 在 日 党 工作 
当中 却 节 省 了 我 不 少 的 时 间 。 


此 外 ， 这 个 调试 器 还 可 以 结合 %run 使 用 。 通 
过 %run-d 执 行 脚本 ， 你 将 会 直接 进入 调试 莫 ， 然 后 
可 以 设置 一 些 断 点 并 局 动 脚本 : 
In [1]: %run -d cho3/ipython_bug.py 
Breakpoint 1 at /home/wesm/book_scripts/ch03/ipython_ bug.py:1 


NOTE: Enter 'c' at the ipdb> prompt to start your script. 
> <string>(1)<module>() 


ipdb> 


如 果 再 加 上 -b 和 一 个 行 号 ， 则 调试 硕 在 局 动 时 
就 会 上 日 动 设置 一 个 断 点 : 


In [2]: %run -d -b2 ch03/ipython_bug.py 

Breakpoint 1 at /home/wesm/book_scripts/ch03/ipython_bug.py:2 
NOTE: Enter 'c' at the ipdb> prompt to start your script. 

> <string>(1)<module>() 


ipdb> c 

> /home/wesm/book_scripts/ch03/ipython_bug.py(2)works_fine() 
1 def works_fine( ): 

1--->2 a 5 
3 b 6 


ipdb> 
测试 代码 的 执行 时 间 : %time 和 %timeit 


对 于 规模 更 大 、 运 行 时 间 更 长 的 数据 分 析 应 用 
程序 ， 你 可 能 会 希望 测试 一 下 各 个 部 分 或 函数 调用 








或 语句 的 执行 时 间 。 你 可 能 会 希望 了 解 某 个 复杂 计 
算 过 程 中 到 展 是 哪些 函数 占用 的 时 间 最 多 。 笠 运 的 
是 ， 在 开发 和 测试 代码 的 过 程 中 ，IPython 能 够 让 你 
轻松 得 到 这 些 信息 。 使 用 内 置 的 time 模 英 及 其 
time.clock 和 ftime.time 畏 数 手 工 测试 代码 执行 时 间 是 
一 件 令 人 烦 亲 的 事情 ， 因 为 你 必须 编写 许多 一 模 一 
样 的 了 无 生 趣 的 公式 化 代码 : 

import time 

start = time.time() 

for i in range(iterations): 


# 这 里 放 一 些 待 执行 的 代码 
elapsed_per = (time.time() - start) / iterations 

















由 于 这 是 一 个 非常 弟 用 的 功能 ， 所 以 IPython 专 
门 提 供 了 两 个 麻 术 函数 (%time 和 %timeit〉 以 便 自 
动 完 成 设 过 程 。%time 一 次 执行 一 条 语句 ， 然 后 报 
告 总 体 执 行 时 间 。 假 设 我 们 有 一 大 堆 字 符 串 ， 升 望 
对 几 个 “能 够 选 出 具有 特殊 前 绥 的 字符 串 ” 的 函数 进 
行 比较 。 下 面 是 一 个 拥有 60 万 字符 串 的 数组 ， 以 及 
00 同 的 “能 够 选 出 其 中 以 foo 开 头 的 字符 串 ” 的 方 
法 : 














# 一 个 非 第 大 的 字 从 时 效 组 
strings = ['foo', 'foobar', 'baz', 'qux', 'python', 'Guido Van 








method1 = [x for x in strings if x.startswith('foo')] 


method2 = [x for x in strings if x[:3] == 'foo'] 


看 上 去 它们 的 性 能 表现 应 该 差不多 ， 对 吧 ? 我 


们 通过 %time 来 确认 一 下 : 


In [561]: %time method1 = [x for x in strings if x.startswith( 
CPU times: user 0.19 s, sys: 0.00 s, total: 0.19 s 
Wall time: 0.19 s 


In [562]: %time method2 = [x for x in strings if x[:3] == 'foo 


CPU times: user 0.09 s, sys: 0.00 s, total: 0.09 s 
Wall time: 0.09 s 


墙 上 时 间 (Wall time) 是 我 们 最 感 兴趣 的 数 
字 。 所 以 ， 看 上 去 第 一 个 方法 耗费 了 两 倍 以 上 的 时 
间 ， 但 这 并 不 是 一 个 非 篆 精确 的 结果 。 如 果 你 对 相 
同 语句 多 次 执行 %time 的 话 ， 就 会 发 现 其 结果 是 会 
变 的 。 为 了 得 到 更 为 精确 的 结果 ， 需 要 使 用 魔术 函 
数 %timeit。 对 于 任意 语句 ， 它 会 自动 多 次 执行 以 产 
生 一 个 非常 精确 的 平均 执行 时 间 。 


In [563]: %timeit [x for x in strings if x.startswith('foo')] 
10 loops, best of 3: 159 ms per loop 

















In [564]: %timeit [x for x in strings if x[:3] == 'foo'] 
10 loops, best of 3: 59.3 ms per loop 


这 个 貌似 平淡 无 奇 的 例子 正好 说 明了 一 个 事 
实 : 我 们 非常 有 必要 了 解 Python 标 准 库 、NumpPy、 
pandas 以 及 本 书 中 所 用 到 的 其 他 库 的 性 能 特点 。 在 
大 型 数据 分 析 应 用 程序 中 ， 这 些 不 起 眼 的 坚 秒 数 是 
会 不 断 囚 积 的 ! 


对 于 那些 执行 时 间 非 常 短 (其 至 是 那些 微 秒 








Cle-6 秒 ) 或 纳 秒 (1e-9 秒 ) 级 的 ) 的 分 析 语 句 和 
国 数 而 言 ，%timeit 征 非常 有 用 的 。 虽 然 这 些 时 间 信 
小 到 几乎 可 以 名 略 不 计 ， 但 同样 执行 100 万 次 一 个 
20 微 秒 的 函数 ， 所 用 的 时 间 要 比 一 个 5 微 秒 的 多 15 
秒 。 在 上 面 那个 例子 中 ， 我 们 可 以 直接 对 那 两 个 字 
符 串 运算 进行 比较 以 了 解 其 性 能 特点 : 

In [565]: x = 'foobar， 

In [566]: y = 'foo' 


In [567]: %timeit x.startswith(y) 
1000000 loops, best of 3: 267 ns per loop 


In [568]: %timeit x[:3] == y 
10000000 loops, best of 3: 147 ns per loop 


基本 性 能 分 析 : %prun 和 %run -p 


代码 的 性 能 分 析 跟 代码 执行 时 间 密 切 相 关 ， 只 
不 过 它 关 注 的 是 耗费 时 间 的 位 置 。 主 要 的 Python 性 
能 分 析 工 具 是 cProfile 模 块 ， 它 不 是 专 为 IPython 设 
计 的 。cProfile 在 执行 一 个 程序 或 代码 块 时 ， 会 记录 
各 妙 数 所 耗 旨 的 时 间 。 


cProfile 一 般 是 在 命令 行 上 使 用 的 ， 它 将 执行 整 
个 程序 然后 输出 各 函数 的 执行 时 间 。 假 设 我 们 有 一 
个 简单 的 脚本 : 在 一 个 循环 中 执行 一 些 线性 代数 计 
算 〈 计 算 一 个 100x100 的 和 矩阵 的 最 大 本 征 值 绝对 
值 ) 。 





import numpy as np 
from numpy.1linalg import eigvals 


def run_experiment(niter=100 ) : 
K = 100 
results = [] 
for _ in xrange(niter): 
mat = np.random.randn(K, K) 
max_eigenvalue = np.abs(eigvals(mat)).max() 
results.append(max_eigenvalue) 
return results 
some_results = run_experiment() 
print 'Largest one we saw: %s' % np.max(some_results) 


如 果 你 还 不 履 NumPy， 和 暂时 先 别 党 ， 后 面 会 讲 
的 。 在 命令 行 中 输入 下 列 命令 即 可 通过 cProfile 局 动 
该 脚本 : 


python -m cProfile cprof_example.py 


执行 之 后 ， 你 会 及 现 输出 结 末 是 投 函 数 名 排序 
的 。 这 证 我 们 很 难 发 现 哪里 才 有 是 最 伦 时 间 的 地 方 ， 
因此 通常 都 会 再 用 -s 标 记 指 定 一 个 排序 规则 : 
$ python -m cProfile -s cumulative cprof_example.py 


Largest one we saw: 11.923204422 
15116 function calls (14927 primitive calls) in 0.720 sec 





Ordered by: cumulative time 


ncalls tottime percall cumtime percall filename:1i 
1 0.001 0.001 0.721 0.721 cprof_example.py:1(<r 
100 0.003 0.000 0.586 0.006 linalg.py:702(eigvals 
200 0.572 0.003 0.572 0.003 {numpy.1linalg.1lapack_ 
1 0 .002 0 .002 0.075 0.075 __init _.py:106(<modu 
100 0.059 0.001 0.059 0.001 {method 'randn') 

1 0.000 0.000 0.044 0.044 add_newdocs.py:9(<mod 
2 0.001 0.001 0.037 0.019 _ init .py:1(<module 


2 0.003 0.002 0.030 0.015 __init .py:2(<module 
1 0.000 0.000 0.030 0.030 type_check.py:3(<modu 
1 0.001 0.001 0.021 0.021 _ init .py:15(<modul 
1 0.013 0.013 0.013 0.013 numeric.py:1(<module> 
1 0.000 0.000 0.009 0.009 _ init .py:6(<module 
1 0.001 0.001 0.008 0.008 __init _.py:45(<modul 
262 0.005 0.000 0.007 0.000 function_base,py:3178 

0.003 0.000 0.005 0.000 linalg.py:162(_assert 





这 里 只 给 出 了 输出 结 末 中 的 前 15 行 。 只 需 碍 看 
cumtime 列 即 可 友 现 各 函数 所 耗费 的 总 时 间 。 注 
意 ， 如 琳 一 个 函数 调用 了 别 的 函数 ， 计 时 占 是 不 会 
停 下 来 重新 计时 的 。cProfile 记 录 的 是 各 函数 调用 的 
起 始 和 结束 时 间 ， 并 依 此 计算 总 时 间 。 


除 命令 行 用 法 之 外 ，cProfile 还 可 以 编程 的 方式 
分 析 任意 代码 块 的 性 能 。IPython 为 此 提供 了 一 个 方 
便 的 接口 ， 即 %prun 命 令 和 和 带 -p 选 项 的 %run。 
%prun 的 格式 跟 cProfile 差 不 多 ， 但 它 分 析 的 是 
Python 语句 而 不 是 整个 .py 文件 : 


In [4]: %prun -1 7 -s cumulative run_experiment() 
4203 function calls in 0.643 seconds 


Ordered by: cumulative time 
List reduced from 32 to 7 due to restriction <7> 


ncalls tottime percall cumtime percall filename:lineno(fun 
1 0.000 0.000 0.643 0.643 <string>:1(<module> 


1 0.001 0.001 0.643 0.643 cprof_example.py:4( 
100 0.003 0.000 0.583 0.006 linalg.py:702(eigve 
200 0.569 0.003 0.569 0.003 {numpy.1linalg.1apac 
100 0.058 0.001 0.058 0.001 {method 'randn'} 
100 0.003 0.000 0.005 0.000 linalg.py:162(_asse 
200 0.002 0.000 0.002 0.000 {method 'all' of 2n 


执行 %run -p -s cumulative cprof_ example.py 也 
能 达到 上 面 那 条 系统 命令 行 命令 一 样 的 效果 ， 但 是 
却 无 需 退 出 IPython。 


未 行 分 析 通 数 性 能 


有 些 时 候 ， 从 %prun (或 其 他 基于 cProfile 的 性 
能 分 析 手 段 ， 得 到 的 信息 要 么 不 足以 说 明 函 数 的 执 
行 时 间 ， 要 么 就 复杂 到 难以 理解 〈 按 函数 名 聚 
合 ) 。 对 于 这 种 情况 ， 我 们 可 以 使 用 一 个 叫做 
line_profiler 的 小 型 库 〈( 可 以 通过 PyPI 或 随便 一 种 包 
管理 工具 获取 ) 。 其 中 有 一 个 新 的 麻 术 孙 
数 %lprun， 它 可 以 对 一 个 或 多 个 函数 进行 逐 行 性 能 
分 析 。 你 可 以 修改 IPython 配 置 (参考 IPython 文 件 
或 本 章 稍 后 关于 配置 的 内 容 〉 以 局 用 这 个 扩展 ， 代 
人 码 如 下 所 示 : 


# A list of dotted module names of IPython extensions to load. 
c.TerminalIPythonApp.extensions = ['line_profiler'] 


line_profiler 可 以 通过 编程 的 方式 使 用 《请 参阅 
完整 文档 ) ， 但 其 最 强大 的 一 面 却 是 在 IPython 中 的 
交互 式 使 用 。 假 设 你 有 一 个 prof _ mod 模块 ， 其 中 有 
一 些 用 于 NumPy 数 组 计算 的 代码 ， 如 下 所 示 : 


from numpy.random import randn 





def add_and_sum(x, y): 


added = X + y 
summed = added.sum(axis=1) 
return summed 


def call_ function( ) : 
x = randn(1000, 1000) 
y = randn(1000, 1000) 
return add_and_sum(x, y) 


如 果 我 们 想 了 解 add_and_sum 函 数 的 性 
%prun 会 给 出 如 下 所 示 的 结果 : 


In [569]: %run prof_mod 


In [570]: x = randn(3000, 3000) 
In [571]: y = randn(3000, 3000) 
In [572]: %prun add_and_sum(x, y) 
4 function calls in 0.049 seconds 
Ordered by: internal time 
ncalls tottime percall cumtime percall filename:lineno(fun 
0.036 0.036 0.046 0.046 prof_mod.py:3(add_and_sum) 
1 0.009 0.009 0.009 0.009 {method 'sum' of 'numpy.nd 
1 0.003 0.003 0.049 0.049 <string>:1(<module>) 
1 0.000 0.000 0.000 0.000 {method 'disable' of '_lsr 


这 个 结果 并 不 能 说 明 什 么 问题 。 局 用 
Nine Droleres 1 Dymon 展 之 后 ， 就 会 出 现 一 个 新 
的 麻 术 命令 %lpruan。 用 法 上 唯一 的 区 别 束 是 : 必须 
为 9%]lprun 指 明 想 要 测试 哪个 或 哪些 函数 。%lprun 的 
通用 语法 为 : 


%lprun -f funci -f func2 statement_to_profile 


在 本 例 中 ， 我 们 想 要 测试 的 是 add_and_sum， 
于 是 执行 : 


2 


In [573]: %lprun -f add and_ sum add_and_sum(x, y) 
Timer unit: 1e-06 s 

File: book_scripts/prof_mod.py 

Function: add_and_sum at line 3 

Total time: 0.045936 S 


Line # Hits Time Per Hit % Time Line Contents 
3 def add and s 
4 1 36510 36510.0 79 .5 added = x 
5 1 9425 9425.0 20 ,5 Summed = 
6 1 4 1.0 0.0 return Su 


这 个 结果 就 容易 理解 多 了 。 这 里 我 们 测试 的 只 
是 add_and_sum 这 一 个 函数 。 上 面 那 个 模块 中 还 有 
一 个 call_function 函 数 ， 我 们 可 以 结合 add_and_sum 
一 起 测试 ， 于 是 最 终 的 测试 命令 束 成 了 下 面 这 个 样 
子 : 


In [574]: %lprun -f add and_ sum -f call function call function 
Timer unit: 1e-06 s 

File: book_scripts/prof_mod.py 

Function: add_and_sum at line 3 

Total time: 0.005526 s 


Line # Hits Time Per Hit % Time Line Contents 
3 def add_ and_sun 
4 4375 4375 .0 79 .2 added = X + 
5 1 1149 1149.0 20.8 summed = ad 
6 1 2 2.0 0.0 return Sumr 


File: book_scripts/prof_mod.py 
Function: call] function at line 8 
Total time: 0.121016 s 


Line # Hits Time Per Hit % Time Line Contents 
8 def call func 
9 1 57169 57169.0 47 .2 x = randn 
10 1 58304 58304.0 48.2 y = randn 


11 1 5543 5543.0 4.6 return ad 


通常 ， 我 会 用 %prun 〈cProfile) 做 “宏观 的 ”性 


能 分 析 ， 而 用 %lprun (line_profiler〉 做 “微观 的 ”性 
能 分 析 。 这 两 个 工具 都 很 有 必要 了 解 一 下 。 


注意 : 在 使 用 %lprun 时 ， 之 所 以 必须 显 式 指明 
待 测试 的 函数 名 ， 是 因为 “跟踪 ?每 一 行 代码 的 执行 
时 间 上 所 需 的 开销 很 大 。 对 不 感 兴趣 的 函数 进行 跟踪 
将 会 对 性 能 分 析 结 果 造 成 显著 的 有 影响。 








详 注 15: = s 不 一 定 行 ， 看 提示 ， 要 用 c; 第 
二 ， 这 个 s 实 际 上 是 step into。 

详 注 16: 也 就 是 step over。 

译注 17: 作者 在 这 里 的 意思 是 这 种 断 点 比较 随便 ， 
征 便 编 但 的 。 








IPython HTML Notebook 


2011 年 ， 由 Brian Granger 领 导 的 IPython 团 队 开 
始 开 发 一 种 基于 Web 技 术 的 交互 式 计算 文档 格式 ， 
即 IPython Notebook( 见 图 3-4) 。 目 前 ， 它 已 经 成 
为 一 种 非常 棒 的 交互 式 计算 工具 ， 同 时 还 是 科研 和 
教学 的 一 种 理想 媒介 。 本 书 中 大 部 分 示例 都 是 用 它 
编写 的 .我 强烈 建议 你 也 试 试 。 
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下 有 号 - 扬 全 不 二 机 code 
In [1]: import numpy as np 
import pandas as pd 
print 'Hello world! 
Hello world! 


In [2]: tips = pd,read_csv('book_ scripts/chQB/tips,csy'] 
tips.head() 


out[2]: 
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In [4]: img = plt.imread('book_ scripts/chds/stinkbug. png') 
figure(figsize=(4, 4))| 
plt,1imshow( 1mg) 


gut[4]; <matplotlib,image,Axesimage at OX7f455d34a510> 








图 3-4: IPython Notebook 


它 有 一 种 基于 JSON 的 文档 格式 .ipynb， 使 你 可 
以 轻松 分 享 代码 、 输 出 结果 以 及 图 片 等 内 容 。 目 前 
在 各 种 Python 研讨 会 上 ， 一 种 流行 的 演示 手段 就 是 
使 用 IPython Notebook， 然 后 再 将 .ipynb 文 件 发 布 到 
网 上 以 供 所 有 人 查阅 。 





IPython Notebook 旋 用 程序 是 一 个 运行 于 命令 
行 上 的 轻 量 级 服务 器 进程 。 执 行 下 面 这 条 命令 即 可 
局 动 : 


$ ipython notebook --pylab=inline 

[NotebookApp] Using existing profile dir: u'/home/wesm/.config 
[NotebookApp] The IPython Notebook is running at: http://127.0 
[NotebookApp] Use Control-C to stop this server and shut down 


在 大 多 数 平 台 上 ， 你 的 首选 Web 浏 览 器 会 目 动 
打开 Notebook 的 仪表 板 (dashboard) 。 有 时 你 可 能 
需要 手工 打开 上 面 列 出 的 那个 URL。 你 可 以 在 这 里 
创建 一 个 新 的 记事 本 并 开始 研究 工作 。 


由 于 我 们 是 在 一 个 web 浏 览 右 中 使 用 Notebook 
的 ， 因 此 该 服务 器 进程 可 以 运行 于 任何 地 方 。 你 其 
至 可 以 连接 到 那些 运行 在 云 服 务 〈 如 Amazon 
EC2) 上 的 Notebook。 直 到 写作 本 书 时 为 止 ， 一 个 
新 的 名 为 
NotebookCloud (http://notebookcloud.appspot.com) 
的 项 目 己 经 诞生 了 ， 它 可 以 轻松 地 在 Amazon EC2 
上 启动 记事 本 。 





利用 IPython 提 高 代码 开 肥 效率 的 几 斥 
提示 
为 了 在 IPython 中 开发 、 调 斌 代码， 并 充分 发 挥 


其 交互 优势 ， 许 多 用 户 者 需要 转换 一 下 工作 模式 。 
像 编码 风格 以 及 一 些 操作 细节 可 能 需要 做 一 些 调 
整 。 





束 这 所 来 说 ， 本 市 的 内 容 更 像 是 艺术 而 非 科 

学 ， 你 需要 有 一 些 编程 经 验 才 好 判断 其 能 个 提高 你 
的 工作 效率 。 总 之 ， 你 得 让 你 的 代码 结构 更 易于 交 
互 目 结束 更 易于 碍 看 。 我 及 现 通过 IPython 设 计 的 软 
件 要 比 独立 的 命令 行 应 用 程序 好 用 。 当 你 执行 目 己 
或 列 人 在 几 个 月 其 至 几 年 前 编写 的 代码 时 出 现 了 错 
误 ， 想 找 出 问题 所 在 时 ，IPython 的 交互 性 就 会 变 得 
非常 重要 。 


重新 加 载 模 块 依赖 项 


在 Python 中 ， 当 你 输入 import some_lib 时 ， 
some_lib 中 的 代码 就 会 被 执行 ， 且 其 中 所 有 的 变 
量 、 函 数 和 引入 项 都 会 被 保存 在 一 个 新 建 的 
some_]ib 模 块 命名 空间 中 。 下 次 你 再 输入 import 
some_lib 时 ， 束 会 得 到 这 个 模块 命名 空间 的 一 个 引 

















用 。 而 。 到 于 IPython 的 交互 式 代 码 开发 模式 就 会 有 
一 个 问题 ， 比 如 说 ， 用 %run 执 行 的 某 段 脚本 中 牵扯 
到 了 某 个 网 网 做 了 修改 的 模块 。 假 设 我 们 有 一 个 
test_script.py 文 件 ， 其 中 有 下 列 代 码 : 


import some_1ib 
X = 5 


y = [1, 2, 3, 4] 
result = some_ lib.get_answer(x, y) 


如 果 在 执行 了 %run test_script.py 之 后 义 对 
some_lib.py 进 行 了 修改 ， 下 次 再 执行 %run 
test_script.py 时 将 仍然 会 使 用 老 版 的 some_lib。 其 原 
因 束 是 Python 的 “一 次 加 载 ” 模 块 系统 。 这 个 行为 不 
同 于 其 他 一 些 数据 分 析 环 境 (如 MATLAB， 它 会 日 
动 应 用 代码 修改 “) 。 为 了 解决 这 个 问题 ， 你 有 两 
个 办 法 可 用 。 第 一 个 办 法 是 使 用 Python 内 置 的 
reload 国 数 。 将 test_script.py 修 改 成 下 面 这 个 样子 : 


import Some_]1ib 
reload(some_1ib) 


X = 5 
y = [1，2，3，4] 
result = some_ lib.get_ answer(x, y) 


这 样 就 保证 每 次 执行 test_script.py 时 都 能 用 上 
最 新 版 的 Some_lib 了 。 显 然 ， 当 依赖 变 得 更 强 时 ， 
瓯 需要 在 很 多 地 方 插入 很 多 的 reload。 对 于 这 个 问 
题 ，IPython 提 供 了 一 个 特殊 的 dreload 函 数 〈 非 魔术 





函数 ) 来 解决 模块 的 4 腔 度 ”递归 ) 重 加 载 。 如 果 
执行 import some_jlib 之 后 再 输入 dreload(some_lib)， 
则 它 会 尝试 重新 加 载 sSome_lib 及 其 所 有 的 依赖 项 。 
遗憾 的 是 ， 这 个 办 法 也 不 是 万 灵 丹 ， 但 是 如 果真 的 
不 行 了 ， 重 启 IPython 就 行 了 。 


代码 设计 提示 


这 个 问题 不 太 好 讲 ， 但 我 在 日 音 工 作 中 确实 及 
现 了 一 些 高 层次 的 原则 。 








保留 有 意义 的 对 象 和 数据 





人 们 一 般 不 会 在 命令 行 上 编写 下 面 这 样 的 程 
序 ; 


from my_functions import g 


def f(x, y): 
return g(x + y) 


def main(): 
X = 6 
yY = 7.5 
result = X + y 


if name == ' _ main ': 
main() 





如 果 我 们 在 IPython 中 执行 这 段 代 人 码 的 话 会 出 现 
什么 问题 ?我 们 在 IPython shell 中 将 访问 不 到 任何 


结果 以 及 main 函 数 中 定义 的 对 象 。 好 点 的 办 法 是 直 
接 在 该 模块 的 全 局 命名 空间 中 执行 main 中 的 代码 

《如 果 你 和 希望 该 模块 是 可 引入 的 ， 也 可 以 将 这 些 代 
人 码 放 在 ff ”name _=='_ main ': 块 中 ) 。 这 样 ， 当 
你 %run 这 有 段 代码 时 ， 束 能 看 到 main 中 定义 的 所 有 变 
量 了 。 对 这 个 简单 的 例子 而 言 ， 这 个 原则 意义 不 

大 ， 但 对 本 书后 面 将 要 介绍 的 那些 针对 大 数据 集 的 
复杂 数据 分 析 问 题 而 言 承 很 重要 了 。 


局 平 结构 要 比 风 套 结构 好 


深度 舱 套 的 代码 让 我 想到 了 洋 葡 。 在 测试 或 调 
试 函 数 时 ， 你 要 把 这 个 洋葱 剥 多 少 层 才 能 找到 感 兴 
趣 的 代码 ?“ 局 平 结构 要 比 科 和 套 结 构 好 ?的 思想 来 
自 "Zen of Python" :18， 它 对 交互 式 的 代码 开发 模 
式 同样 有 效 。 编 写 函 数 和 类 时 应 尽量 注意 低 厢 合 和 
模块 化 ， 这 样 可 以 使 它们 更 易于 测试 (如 果 你 编写 
单元 测试 的 话 ) 、 调 试 和 交互 式 使 用 。 





无 惧 大 文件 


如 果 曾 经 学 过 Java 《或 其 他 类 似 的 语言 ) ， 可 
能 会 有 人 告诉 你 要 “尽量 保持 文件 的 小 型 化 "。 在 许 
多 语言 中 ， 这 都 是 一 个 不 错 的 建议 。 长 度 太 长 通 冰 
是 一 种 不 好 的 “时代 码 ”， 意 味 痢 需要 重 构 或 重组 。 








然而 在 IPython 中 开发 代码 时 ， 处 理 10 个 小 的 (但 互 
相关 联 的 ) 文件 (比如 都 低 于 100 行 〉 可 能 会 让 你 

更 为 头疼 ， 还 不 如 直接 一 个 大 文件 或 两 三 个 大 点 的 
文件 来 得 痛快 。 更 少 的 文件 意味 着 需要 和 章 新 加 载 的 
模块 更 少 ， 编 辑 时 需要 在 各 个 文件 之 间 的 跳 转 次 数 
也 更 少 。 我 发 现 维护 更 大 的 (具有 高 内 聚 度 的 ) 模 
块 会 更 实用 也 更 具有 Python 特 点 。 在 解决 完 问 题 之 
后 ， 有 时 将 大 文件 拆 分 成 小 文件 会 更 好 。 


显然 ， 我 并 不 建议 将 此 原则 极 闪 化 ， 那 可 能 会 
让 你 将 所 有 代码 都 放 到 一 个 巨大 的 文件 里 面 。 对 一 
个 大 型 代码 库 而 言 ， 要 找到 一 种 合乎 逻辑 的 模块 / 包 
架构 需要 人 花 点 工夫 ， 但 这 对 团队 工作 非常 重要 。 每 
个 模 英 都 应 该 具有 足够 高 的 内 缘 度 ， 而 且 和 要 能 足够 
直观 地 找到 对 应 各 种 功能 的 函数 和 类 。 


注 1: 由 于 一 个 模块 或 包 可 能 会 在 一 个 程序 中 的 不 
同位 置 多 次 引入 ， 所 以 Python 会 在 第 一 次 引入 这 些 
模块 时 对 其 进行 缓存 ， 而 不 是 每 次 都 执行 模块 中 的 
代码 。 否 则 ， 应 用 程序 的 模块 化 和 良好 的 代码 组 织 
等 手段 就 达 不 到 高 效 的 目的 了 。 

译注 18: 这 是 Tim Peters 2004 年 写 的 一 首 “ 诗 ”， 执 
行 "import this" 就 能 看 到 。 有 了 网 民 将 其 翻译 成 三 字 经 
的 形式 〈 又 名 “ 蛇 守 三字经 >) 。 另 外 ， 有 兴趣 的 
话 ， 可 以 看 看 this 的 源 代 码 。 
































局 级 IPython 功 能 
让 你 的 类 对 IPython 更 加 友好 


IPython 力 求 为 各 种 对 象 呈现 一 个 友好 的 字符 串 
表示 。 对 于 许多 对 象 《 如 字典 、 列 表 和 元 组 等 ) ， 
内 置 的 pprint 模 块 就 能 给 出 漂 腕 的 格式 。 但 是 对 于 
你 目 己 定义 的 那些 类 ， 就 必须 目 己 生成 所 需 的 字符 
串 输出 。 假 设 我 们 有 下 面 这 个 简单 的 类 : 

class Message: 


def _ init (self, msg): 
self.msg = msg 


如 果 像 下 面 这 样 写 ， 你 束 会 失望 地 友 现 这 个 类 
的 默认 输出 形式 非常 不 好 看 : 


In [576]: x = Message('I have a secret') 


In [577]: x 
Out[577]: <_ main .Message instance at Ox60ebbd8> 


由 于 IPython 会 获取 _repr ”方法 返回 的 字符 串 
(具体 办 法 是 output=repr(obj)); ， 并 将 其 显示 到 控 
制 全 上。 因此， 我 们 可 以 为 上 面 那 个 类 添加 一 个 徐 
ee 
工 N 








class Message: 
def _ init (self, msg): 
self.msg = msg 


def __repr__(self): 
return 'Message: %s' % self.msg 


In [579]: x = Message('I have a secret') 


In [580]: x 
Out[580]: Message: I have a secret 


个 性 化 和 配置 


IPython shell 在 外 观 〈 如 闫 色 、 提 示人 符 、 行 间 
距 等 ) 和 行为 方面 的 大 部 分 内 容 都 是 可 以 进行 配置 
的 。 下 面 是 能 够 通过 配置 做 的 部 分 事情 : 

修改 磊 色 方案 。 

-修改 输入 输出 提示 符 。 


-去掉 Out 提 示 符 跟 下 一 个 mn 提示 符 之 间 的 空 
村 





:执行 任意 Python 语 句 。 这 些 语句 可 以 用 于 引入 
所 有 常用 的 东西 ， 还 可 以 做 一 些 你 希望 每 次 启动 
IPython 都 发 生 的 事情 。 


.局 用 IPython 扩 展 ， 如 line_profiler 中 的 魔术 命 


令 %lprun。 


:定义 你 目 己 的 魔术 命令 或 系统 别名 。 


所 有 这 些 配置 选项 都 定义 在 一 个 叫做 
ipython_config.py 的 文件 中 ， 可 以 在 
~/.config/ipython/ 目 录 (UNIX) 

和 %HOME%/.ipython/ 目 录 “(Windows) 中 找到 。 

上 其 体 的 主 目 录取 决 于 你 的 系统 。 配 置信 息 是 基于 特 
定 个 性 化 设置 的 。 一 般 来 说 ， 正 第 局 动 IPython 将 会 
加 载 默 认 的 个 性 化 设置 (位 于 profile_default 目 录 

中 ) 。 因 此 ， 在 我 的 Linux 系 统 中 ， 默 认 IPython 配 
置 文件 的 完整 路 径 是 : 


/home/wesm/ .config/ipython/profile _ default/ipython_config.py 








这 里 我 就 不 对 该 文件 的 内 容 作 详细 介绍 了 。 
为 其 注释 已 经 说 明了 各 个 配置 项 的 功能 ， 各 位 读者 
完全 可 以 目 己 照 着 做 。 还 有 一 个 很 实用 的 功能 是 拥 
有 多 个 个 性 化 设置 。 假 设 你 想 要 专门 为 菏 个 应 用 程 
序 或 项 目 量 身 定做 一 套 IPython 配 置 。 和 输入 下 面 这 样 
的 命令 即 可 新 建 一 个 个 性 化 设置 : 


ipython profile create secret project 








然后 编辑 新 建 的 这 个 profile_secret_project 目 录 
中 的 配置 文件 ， 再 用 下 面 这 种 方式 启动 IPython: 
$ ipython --profile=secret_project 


Python 2.7.2 |EPD 7.1-2 (64-bit)| (default, Jul 3 2011, 15:17 
Type "copyright", "credits" or "license" for more information. 





3 yan 0.13 -- An enhanced Interactive Python. 
-> Introduction and overview of IPython's features. 
i -> Quick reference. 
help -> Python's own help system. 
object? -> Details about ‘object', use 'object??' for ex 


IPython profile: secret_project 


In [1]: 


同样 ， 有 关 个 性 化 和 配置 方面 的 评 细 信息 ,i 
参考 IPython 的 在 线 文 档 。 
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第 4 音 NumpPy 基 础 : 数组 和 矢量 计算 


NumPy (Numerical Python 的 简称 ) 是 高 性 能 
科学 计算 和 数据 分 析 的 基础 包 。 它 是 本 书 所 介绍 的 
几乎 所 有 蜗 级 工具 的 构建 基础 。 其 部 分 功 g 如 下 ， 


ndarray， 一 个 共有 和 天 量 鼻 术 运 算 和 复杂 广播 
能 力 的 快速 有 节省 空间 的 多 维 数 组 。 


:用 于 对 整 组 数据 进行 快速 运算 的 标准 数学 函 
数 〈 无 十 编写 循环 〉。 

“用 于 读 写 人 磁盘 数据 的 工具 以 及 用 于 操作 内 和 存 
映射 文件 的 工具 。 


线性 代数 、 随 机 数 生 成 以 及 信里 时 变换 功 


会 已 
月 Co 




















:用 于 集成 由 C、C++、Fortran 等 语言 编写 的 代 
码 的 工具 。 


最 后 一 点 也 是 从 生态 系统 角度 来 看 最 重要 的 一 
所 由 于 NumPy 提 供 了 一 个 简单 易 用 的 C APT， 
1 由 低级 语言 编写 的 外 部 库 ， 
外 部 库 也 能 以 NumPy 数 组 的 形式 将 数据 返回 给 
Python。 这 个 功能 使 Python 成 为 一 种 包装 








C/C++/Fortran 历 史 代 码 库 的 选择 ， 并 使 被 包装 库 拥 
有 一 个 动态 的 、 易 用 的 接口 。 


NumPy 本 喘 并 没有 提供 多 么 高 级 的 数据 分 析 功 
能 ， 理 解 NumPy 数 组 以 及 面 回 数组 的 计算 将 有 助 于 
你 更 加 高 效 地 使 用 诸如 pandas 之 类 的 工具 。 如 果 你 
是 Python 新 手 ， 而 且 只 是 想 用 pandas 随 便 处 理 一 下 
数据 就 行 ， 那 束 跳 过 本 章 吧 ， 没 关系 的 。 更 多 
NumPy 高 级 功能 〈 比 如 广播 ) ， 请 参见 第 12 章 。 


对 于 大 部 分 数据 分 析 应 用 而 言 ， 我 最 关注 的 功 
能 主要 集中 在 : 


:用 于 数据 整理 和 清理 、 子 集 构 造 和 过 滤 、 转 
换 等 快速 的 矢量 化 数组 运算 。 


第 用 的 数组 算法 ， 如 排序 、 唯 一 化 、 集 合 运 


i 

:高效 的 描述 统计 和 数据 聚合 /摘要 运算 。 

:用 于 异 构 数据 集 的 合并 /连接 运算 的 数据 对 齐 
和 关系 型 数据 运算 。 

.将 条 件 逻 辑 表 述 为 数组 表达 式 “〈 而 不 是 带 有 
if-elif-else 分 支 的 循环 〉。 




















“数据 的 分 组 运算 (聚合 、 转 换 、 函 数 应 用 
等 ) 。 第 5 草 将 对 此 进行 详细 讲解 。 


虽然 NumPy 提 供 了 这 些 功 能 的 计算 基础 ， 但 你 
可 能 还 是 想 将 pandas 作 为 数据 分 析 工 作 的 基础 〈( 尤 
其 是 对 于 结构 化 或 表格 化 数据 ) ， 因 为 它 提供 了 能 
使 大 部 分 第 见 数据 任务 变 得 非常 简洁 的 丰富 高 级 接 
口 。pandas 还 提供 了 一 些 NumPy 所 没有 的 更 加 领域 
特定 的 功能 ， 如 时 间 序 列 处 理 等 。 


注意 : 在 本 章 以 及 本 书 中 ， 我 将 依照 标准 的 
NumPy 约 定 ， 即 总 是 使 用 import numpy as np。 当 
然 ， 你 也 可 以 为 了 不 写 np. 而 直接 在 代码 中 使 用 from 
numpy import*， 但 我 得 提醒 你 最 好 还 是 不 要 养 成 
这 样 的 坏 习 惯 。 














NumPy 的 ndarray: 一 种 多 维 数组 对 象 


NumpPy 最 章 要 的 一 个 特点 就 是 其 N 维 数组 对 象 
( 即 ndarray) ， 访 对象 是 一 个 快速 而 灵活 的 大 数据 
集 容器 。 你 可 以 利用 这 种 数组 对 整 块 数据 执行 一 些 
数学 运算 ， 其 语法 跟 标 量 元 素 之 间 的 运算 一 样 : 
| data 


array([[ 0.9526, -0.246 ， -0.8856], 
[ 0.5639, 0.2379, 0.9104]]) 





In [9]: data * 10 In [10]: data + data 

Out[9] : Out[10]: 

array([[ 9.5256, -2.4601, -8.8565], array([[ 1.9051, -0.492 
[ 5.6385, 2.3794, 9.104 ]]) [ 1.1277, 0.4759 


ndarray 是 一 个 通用 的 同 构 数 据 多 维 容 堪 ， 也 就 
是 说 ， 其 中 的 所 有 元 素 必 须 是 相同 类 型 的 。 每 个 数 
组 都 有 一 个 shape (一 个 表示 各 维度 大 小 的 元 组 ) 和 
一 个 dtype〔 一 个 用 于 说 明 数 组 数据 类 型 的 对 象 〉: 

In [11]: data.shape 
out[11]: (2, 3) 


In [12]: data.dtype 
Out[12]: dtype('float64') 


本 章 将 会 介绍 NumPy 数 组 的 基本 用 法 ， 这 对 于 
本 书后 面 各 章 的 理解 基本 够 用 。 虽 然 大 多 数 数据 分 
析 工 作 不 需要 深入 理解 NumPy， 但 是 精通 面向 数组 








的 编程 和 思维 方式 是 成 为 Python 科学 计算 牛人 的 一 
大 关键 步 又 。 


注意 : 当 你 在 本 书 中 看 到 “数组 “NumPy 数 
组 ”、"ndarray" 时 ， 基 本 上 都 指 的 是 同一 样 东 西 ， 
即 ndarray 对 象 。 





创建 ndarray 





创建 数组 最 简单 的 办 法 就 是 使 用 array 函 数 。 它 
接受 一 切 序列 型 的 对 象 〈 包 括 其 他 数组 ) ， 然 后 产 
生 一 个 新 的 含有 传 入 数据 的 NumPy 数 组 。 以 一 个 列 
表 的 转换 为 例 : 


In [13]: datal = [6, 7.5, 8, 0, 1] 
In [14]: arri = np.array(data1) 


In [15]: arr1 
Out[15]: array([ 6，， 7.5, 8. , 0., 1，]) 


退 套 序列 (比如 由 一 组 等 长 列表 组 成 的 列表 ) 
将 会 被 转换 为 一 个 多 维 数 组 : 
In [16]: data2 = [[1, 2, 3, 4], [5, 6, 7, 81]] 
In [17]: arr2 = np.array(data2) 
In [18]: arr2 
Out[18] : 


array([[1，2，3，4]， 
[5, 6, 7, 8]]) 


In [19]: arr2,ndinm 
Out[19]: 2 


In [20]: arr2.shape 
Out[20]: (2, 4) 


除非 显 式 说 明和 后 将 会 详细 介绍 ) ， 
np.array 会 竹 试 为 新 建 的 这 个 数组 推 新 出 一 个 较为 
合适 的 数据 类 型 。 数 据 类 型 保存 在 一 个 特殊 的 dtype 
对 象 中 。 比 如 说 ， 在 上 面 的 两 个 例子 中 ， 我 们 有 : 


In [21]: arr1.dtype 
Out[21]: dtype('float64') 


In [22]: arr2.dtype 
Out[22]: dtype('int64') 


除 np.array 之 外 ， 还 有 一 些 函 数 也 可 以 新 建 数 
组 。 比 如 ，zeros 和 ones 分 别 可 以 创建 指定 长 度 或 形 
状 的 全 0 或 全 1 数组 。empty 可 以 创建 一 个 没有 任何 
具体 值 的 数组 。 要 用 这 些 方法 创建 多 维 数组 ， 只 需 
传 入 一 个 表示 形状 的 元 组 即 可 : 
In [23]: np.zeros(10) 
out[23]: array([ 0., 0., 0., 0., 0., 0., 0., 0., 0. 


In [24]: np.zeros((3, 6)) 
Out[241]: 








array([[ 0., 0., 0., 0., 0., 0.], 
[ 0., 0., 0,., 0., 0., 0.], 
[ 0., 0., 0., 0., 0., 0.]]) 

In [25]: np.empty((2, 3, 2)) 

Out[25]: 

array([[[ 4.94065646e-324, 4.94065646e-324]， 
[ 3.87491056e-297, 2.46845796e-1301], 
[ 4.94065646e-324, 4.94065646e-324]], 


[[ 1.90723115e+083, 5.73293533e-053], 
[ -2.33568637e+124, -6.70608105e-012], 
[ 4.42786966e+160, 1.27100354e+025]]]) 





殿 


区 告 : 认为 np.empty 会 返回 全 0 数组 的 想法 是 
不 安全 的 。 很 多 情况 下 《如 前 所 示 ) ， 它 返回 的 都 
是 一 些 未 初始 化 的 垃圾 值 。 


arange 是 Python 内 置 函 数 range 的 数组 版 : 


In [26]: np.arange(15) 
Out[26]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 


表 4-1 列 出 了 一 些 数 组 创建 函数 。 由 于 NumPy 
关注 的 是 数值 计算 ， 因 此 ， 如 果 没 有 特别 指定 ， 数 
据 类 型 基本 都 是 float64( 浮 点 数 ) 。 








表 4-1: 数组 创建 函数 





函数 说 明 

array 将 输入 数据 (列表 、 元 组 、 数 组 或 其 他 序列 类 型 ) 转换 为 
ndarray。 要 么 推断 出 dtype， 要 么 显 式 指定 dtype。 默 认 直接 复 
制 输入 数据 

asarray 将 输入 转换 为 ndarray， 如 果 输 入 本 身 就 是 一 个 ndarray 就 不 进行 
复制 

arange 类 似 于 内 置 的 range， 但 返回 的 是 一 个 ndarray 而 不 是 列表 


ones、ones like 根据 指定 的 形状 和 dtype 创 建 一 个 全 1 数组 。ones_like 以 另 一 个 数 
组 为 参数 ， 并 根据 其 形状 和 dtype 创 建 一 个 全 1 数组 
zeros、zeros_ like 类 似 于 ones 和 ones_like， 只 不 过 产生 的 是 全 0 数组 而 已 
empty、empty_like ”创建 新 数组 ， 只 分 配 内 存 空 间 但 不 填充 任何 值 
eye、 identity 创建 一 个 正方 的 N xN 单 位 矩阵 (对 角 线 为 1， 其 余 为 0) 











ndarray 的 数据 类 型 


dtype〈 数 据 类 型 ) 是 一 个 特殊 的 对 象 ， 它 合 
Re 内 存 解释 为 特定 数据 类 型 所 需 的 信 


4U。 


In [27]: arri = np.array([1, 2, 3], dtype=np.float64) 
In [28]: arr2 = np.array([1, 2, 3], dtype=np.int32) 


In [29]: arr1.dtype In [30]: arr2.dtype 
Out[29]: dtype('float64') Out[30]: dtype('int32°') 


dtype 是 NumPy 如 此 强大 和 有 灵活 的 原因 之 一 。 

多 数 情 况 下 ， 它 们 直接 映射 到 相应 的 机 嚣 表示， 这 
使 得 * 读 写 破 盘 上 的 二 进 制 数据 流 ” 以 及 “集成 低级 
语言 代码 (如 C、Fortran) ”等 工作 变 得 更 加 简单 。 
数值 型 dtype 的 命名 方式 相同 :一 个 类 型 名 (如 float 
或 int) ， 后 面 跟 一 个 用 于 表示 各 元 素 位 长 的 数字 。 
标准 的 双 精 度 浮 点 值 〈 即 Python 中 的 float 对 象 ) 需 
要 占用 8 字 节 〈 即 64 位 ) 。 因 此 ， 访 类 型 在 NumPy 
中 就 记 作 float64。 表 4-2 列 出 了 NumPy 所 文 持 的 全 部 
数据 类 型 。 


注意 : 记 不 住 这 些 NumPy 的 dtype 也 没关系 ， 
新 手 更 是 如 此 。 通 第 只 需要 知道 你 所 处 理 的 数据 的 
大 致 类 型 是 浮 点 数 、 复 数 、 整 数 、 布 尔 值 、 字 符 
串 ， 还 是 普通 的 Python 对 象 即 可 。 当 你 需要 控制 数 











据 在 内 存 和 磁盘 中 的 存储 方式 时 尤其 
就 得 了 解 如 何 控制 存储 类 型 。 


集 ) 


表 4-2: NumPy 的 数据 类 型 


是 对 大 数据 








In [31]: 


arr 


类 型 类 型 代码 ”说明 

int8、uint8 条 几 有 符号 和 无 符号 的 8 位 (1 个 字 节 ) 整 型 

int16、uint16 i2、u2 有 符号 和 无 符号 的 16 位 (2 个 字 节 ) 整 型 

int32、uint32 i4、u4 有 符号 和 无 符号 的 32 位 (4 个 字 节 ) 整 型 

int64、uint64 i8、u8 有 符号 和 无 符号 的 64 位 (8 个 字 节 ) 整 型 

float16 f2 半 精 度 浮 点 数 

float32 f4 或 f 标准 的 单 精度 浮 点 数 。 与 C 的 float 兼 容 

float64 f8 或 d 标准 的 双 精 度 浮 点 数 。 与 C 的 double 和 Python 
的 float 对 象 兼容 

float128 f16 或 g 扩展 精度 浮 点 数 

complex64、complex128、c8、c16、 ”分 别 用 两 个 32 位 、64 位 或 128 位 浮 点 数 表示 的 

complex256 c32 复数 

bool ? 存储 True 和 False 值 的 布尔 类 型 

表 4-2: NumPy 的 数据 类 型 ( 续 ) 

类 型 类 型 代码 ”说明 

object O Python 对 象 类 型 

string_ 5 固定 长 度 的 字符 串 类 型 (每 个 字符 1 个 字 节 ) 。 
例如 ， 要 创建 一 个 长 度 为 10 的 字符 串 ， 应 使 用 
S10 

unicode __ U 固定 长 度 的 unicode 类 型 ( 字 节 数 由 平台 决定 ) 。 
跟 字符 串 的 定义 方式 一 样 (如 U10) 

你 可 以 通过 ndarray 的 astype 方 法 显 式 地 转换 其 
dtype: 


np.array([1, 2, 3, 4, 5]) 


In [32]: arr.dtype 
Out[32]: dtype('int64') 


In [33]: float_arr = arr.astype(np.float64) 
In [34]: float_arr.dtype 
Out[34]: dtype('float64') 
在 本 例 中 ， 整 数 税 转换 成 了 浮 点 数 。 如 末 将 浮 
所 数 转换 成 整数 ， 则 小 数 部 分 将 会 个 截断 : 


In [35]: arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1]) 


In [36]: arr 
Out[36]: array([ 3.7, -1.2, -2.6, 0.5, 12.9, 10.1]) 


In [37]: arr.astype(np.int32) 
Out[37]: array([ 3, -1, -2, 0, 12, 10], dtype=int32) 


如 果 东 字符 串 数 组 表示 的 全 是 数字 ， 也 可 以 用 
astype 将 其 转换 为 数值 形式 : 


In [38]: numeric_strings = np.array(['1.25', '-9.6', '42'], dt 





In [39]: numeric_strings.astype(float) 
Out[39]: array([ 1.25, -9.6 , 42. ]) 


如 有 果 转 换 过 程 因为 茶 种 原因 而 失败 了 《比如 茶 
个 不 能 被 转换 为 float64 的 字符 串 〉， 束 会 引发 一 个 
TypeError。 看 到 了 吧 ， 我 比较 懒 ， 写 的 是 float 而 不 
是 np.float64; NumPy 很 聪明 ， 它 会 将 Python 类 型 映 
冉 到 等 价 的 dtype 上 。 


数组 的 dtype 还 有 另外 一 个 用 法 : 


In [40]: int_array = np.arange(10) 
In [41]: calibers = np.array([.22, .270, .357, .380, .44, .50] 


In [42]: int_array.astype(calibers.dtype) 
Out[42]: array([ 0., 1., 2., 3., 4., 


你 还 可 以 用 简洁 的 类 型 代 人 码 来 表示 dtype: 


In [43]: empty_uint32 = np.empty(8, dtype="'u4') 


5., 6., 7., 8.,, 


In [44]: empty_uint32 

Out[441]: 

array([ 0, 0, 65904672, 0, 64856792, 0, 
39438163， 0], dtype=uint32) 


注意 : 调用 astype 无 论 如 何 都 会 创建 出 一 个 新 
的 数组 (原始 数据 的 一 份 找 贝 )， 即 使 新 dtype 跟 老 
dtype 相 同 也 是 如 此 。 


警告 : 注意 ， 浮 点 数 〈 比 如 float64 和 float32 ) 
只 能 表示 近似 的 分 数值 。 在 复杂 计算 中 ， 由 于 可 能 
会 积累 一 些 浮 点 错误 ， 因 此 比较 操作 只 能 在 一 定 小 
数位 以 内 有 效 。 
数组 和 标量 之 间 的 运算 

数组 很 重要 ， 因 为 它 使 你 不 用 编写 循环 即 可 对 
数据 执行 批量 运算 。 这 通常 束 叫 做 矢量 化 
(vectorization) 。 大 小 相等 的 数组 之 间 的 任何 算术 
运算 都 会 将 运算 应 用 到 元 素 级 : 


In [45]: arr = np,array([[1.，2.，3.]，[4.，5.，6.]]) 


In [46]: arr 


Out[46 1] : 
array([[ 1 2,， 3.]; 
[ 4.; 5. 6.1]) 
In [47]: arr * arr In [48]: arr - arr 
Out[47]: Out[48]: 


0.， 7 


array([[ 1., 2 array([[ 0.， 0.] 
[ 090., 090., 0.]]) 


9.], 
[ 16., 25., 36.]]) 


同样 ， 数 组 与 标量 的 算术 运算 也 会 将 那个 标量 
值 传播 到 各 个 元 素 : 





In [49]: 1 / arr In [50]: arr ** 0.5 

Out[49]: Out[50]: 

array([[ 1. / 0,.5 / 0.3333], array([[ 1. ， 1.414 
[ 0.25 0.2 0.1667]]) [ 2. 2.236 


不 同 大 小 的 数组 之 间 的 运算 叫做 广播 
(broadcasting〉， 我 们 将 在 第 12 章 中 对 其 进行 详细 
讨论 。 本 书 的 内 容 不 需要 对 广播 机 制 有 多 深 的 理 
解 。 
基本 的 索引 和 切记 

NumPy 数 组 的 索引 是 一 个 内 容 丰 军 的 主题 ， 
为 选取 数据 子 集 或 单个 元 素 的 方式 有 很 多 。 一 维 数 
组 很 简单 。 从 表面 上 看 ， 它 们 跟 Python 列 表 的 功能 
差不多 : 


In [51]: arr = np.arange(10) 














In [52]: arr 
out[52]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 


In [53]: arr[5] 
Out[53]: 5 


In [54]: arr[5:8] 
Out[54]: array([5, 6, 7]) 


In [55]: arr[5:8] = 12 


In [56]: arr 
out[56]: array([ 0, 1, 2, 3, 4, 12, 12, 12, 8, 9]) 


如 上 所 示 ， 当 你 将 一 个 标量 值 赋值 给 一 个 切片 
时 《如 arr[5:8]=12〉， 该 值 会 自动 传播 (也 就 说 后 
面 将 会 讲 到 的 “广播 >) 到 整个 选区 。 跟 列表 最 重要 
的 区 别 在 于 ， 数 组 切片 是 原始 数组 的 视图 。 这 章 味 
着 数据 不 会 被 复制 ， 视 图 上 的 任何 修改 都 会 直接 反 
上映 到 涯 数组 上 : 


In [57]: arr slice = arr[5:8] 





In [58]: arr_slice[1] = 12345 


In [59]: arr 
out[59]: array([ 0, 1, 2, 3, 4, 12, 12345, 12, 


In [60]: arr_slice[:] = 64 
In [61]: arr 
Out[61]: array([ 06, 1, 2, 3, 4, 64, 64, 64, 8, 9]) 
如 果 你 刚 开 始 接触 NumPy， 可 能 会 对 此 感到 惊 
讶 (尤其 是 当 你 曾经 用 过 其 他 热衷 于 复制 数组 数据 
的 编程 语言 ) 。 由 于 NumPy 的 设计 目的 是 处 理 大 数 


据 ， 所 以 你 可 以 想象 一 下 ， 假 如 Numpy 坚 持 要 将 数 
据 复制 来 复制 去 的 话 会 产生 何等 的 性 能 和 内 存 问 


题 。 





警告 : 如 果 你 想 要 得 到 的 是 ndarray 切 片 的 一 
份 副 本 而 非 视 图 ， 束 需要 显 式 地 进行 复制 操作 ， 例 
Warr[5:8].copy()。 


对 于 高 维度 数组 ， 能 做 的 事情 更 多 。 在 一 个 二 
维 数组 中 ， 各 索引 位 置 上 的 元 系 不 绸 是 标量 而 是 一 
维 数 组 : 


In [62]: arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) 




















In [63]: arr2d[2] 
Out[63]: array([7, 8, 9]) 


因此 ， 可 以 对 各 个 元 系 进 行 递归 访问 ， 但 这 样 
需要 做 的 事情 有 扩 多 。 你 可 以 传 入 一 个 以 逗号 隅 开 
的 索引 列表 来 选取 单个 元 素 。 也 就 是 说 ， 下 面 两 种 
方式 是 等 价 的 : 








In [64]: arr2d[0][2] 
Out[64]: 3 


In [65]: arr2d[0, 2] 
Out[65]: 3 


图 4-1 说 明了 二 维 数组 的 索引 方式 。 





axis 1 
0 1 2 











图 4-1: NumPy 数 组 中 的 元 素 索 引 


在 多 维 数组 中 ， 如 果 省 略 了 后 面 的 索引 ， 则 返 
回 对 象 会 是 一 个 维度 低 一 点 的 ndarray《〈 筷 含有 局 一 
级 维度 上 的 所 有 数据 1) 。 因 此 ， 在 2x2x3 数 组 
arr3d 中 : 





In [66]: arr3d = np,array([[L1，2，3]，[4，5，6]]，[L7，8，9|]， 


In [67]: arr3d 

Out[67] : 

array([[[ , 
[ 6]], 


1, 2, 
4, 5, 
[[ 7， 8, 9], 

[10, 11, 12]1]) 


arr3d[0] 是 一 个 2x3 数 组 : 


In [68]: arr3d[0] 

Out[68]: 

array([[1, 2, 3], 
[4, 5, 6]]) 


标量 值 和 数组 都 可 以 被 赋值 给 arr3d[0]: 


In [69]: old_values = arr3d[0].copy() 
In [70]: arr3d[0] = 42 


In [71]: arr3d 

Out[71 1] : 

array([[[42，42，42]， 
[42, 42, 42]], 
[[ 7, 8, 9], 
[190, 11, 12]1]) 


In [72]: arr3d[0] = old_values 


In [73]: arr3d 

Out[73]: 

array([[[ 1, 2, 3], 
[ 4, 5, 6]], 
[[ 7, 8, 9], 

[10, 11, 12]]]) 


以 此 类 推 ，arr3d[1,0] 可 以 访问 索引 以 (10) 开 头 
的 那些 值 〈 以 一 维 数 组 的 形式 返回 ) : 


In [74]: arr3d[1, 0] 
Out[74]: array([7, 8, 9]1) 


注意 ， 在 上 面 所 有 这 些 选 取 数 组 子 集 的 例子 
中 ， 返 回 的 数组 部 是 视图 。 





切片 索引 


ndarray 的 切片 语法 跟 Python 列 表 这 样 的 一 维 对 
象 拓 不 多 : 


In [75]: arr[1:6] 
Out[75]: array([ 1, 2, 3， 4，64]) 


高 维度 对 象 的 花样 更 多 ， 你 可 以 在 一 个 或 多 个 
轴 上 进行 切片 ， 也 可 以 跟 整 数 索 引 混 合 使 用 。 对 于 
上 面 那 个 二 维 数组 arr2d， 其 切 厂 方式 稍 显 不 同 : 


In [76]: arr2d In [77]: arr2d[:2] 

Out[76]: Out[77]: 

array([[1, 2, 3], array([[1, 2, 3], 
[4, 5, 6], [4, 5, 6]]) 


[7?, 8, 91]) 


可 以 看 出 ， 它 是 治 着 第 0 轴 “《 即 第 一 个 轴 ) 切 
刻 的 。 也 束 是 说 ， 切 厂 是 沿 着 一 个 轴 问 选取 元 系 
的 。 你 可 以 一 次 传 入 多 个 切 厂 ， 束 像 传 入 多 个 索引 
那样 : 

In [78]: arr2d[:2, 1:] 
Out[78]: 


array([[2, 3], 
[5，6]]) 


像 这 样 进 行 切片 时 ， 只 能 得 到 相同 维 数 的 数组 
视图 。 通 过 将 整数 索引 和 切片 混合 ， 可 以 得 到 低 维 
度 的 切片 : 


In [79]: arr2d[1, :2] In [80]: arr2d[2, :1] 
Out[79]: array([4, 5]) Out[80]: array([7]) 


图 4-2 对 此 进行 了 说 明 。 注 章 ,，“ 只 有 冒号 ”表示 
选取 整个 轴 ， 因 此 你 可 以 像 下 面 这 样 只 对 局 维 轴 进 


行 切 片 : 


In [81]: arr2d[:, :1] 
Out[81]: 
array([[1], 

[4], 

[7]]) 


目 然 ， 对 切片 表达 式 的 赋值 操作 也 会 被 扩散 到 
人 区: 


In [82]: arr2d[:2, 1:] = 0 


布尔 型 索引 


来 看 这 样 一 个 例子 ， 假 设 我 们 有 一 个 用 于 存储 
数据 的 数组 以 及 一 个 存储 姓名 的 数组 (含有 重复 
项 ) 。 在 这 里 ， 我 将 使 用 numpy.random 中 的 randn 
函数 生成 一 些 正 态 分 布 的 随机 数据 : 


In [83]: names = np.array(['Bob', 'Joe', 'Will', 'Bob', ‘Will' 








In [84]: data = randn(7, 4) 


In [85]: names 


Out[85]: 
array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'l], 
dtype='|S4') 


In [86]: data 

Out[86]: 

array([[-0.048 , 0.5433, -0.2349, 1.2792], 
[-0.268 ， 0.5465, 0.0939, -2.0445], 
[-0.047 ，-2.026 ， 0.7719, 0.3103], 
[ 2.1452, 0.8799, -0.0523, 0.0672], 





[-1.0023, -0.1698, 1.1503, 1.7289], 
[ 0.1913, 0.4544, 0.4519, 0.5535], 
[ 0.5994, 0.8174, -0.9297, -1.,2564]]) 
Expression Shape 
-二 生计 [32 5] tz 汉 
arr[2] (3,) 
arr[2,:] (3,) 
azT[2g 次 | (1 3) 
国 : arE[ 2 :全 ] (3 区 
了 纪 | (Zs) 
a 王 [全 22，32] (4, 2) 








图 4-2: 二 维 数组 切片 





假设 每 个 名 字 都 对 应 data 数 组 中 的 一 行 ， 而 我 
们 想 要 选 出 对 应 于 名 字 "Bob" 的 所 有 行 。 跟 算术 运 
算 一 样 ， 数 组 的 比较 运算 (如 ==) 也 是 矢量 化 的 。 
因此 ， 对 names 和 字符 串 "Bob" 的 比较 运算 将 会 产生 


一 个 布尔 型 数组 : 


In [87]: names == 'Bob' 


Out[87]: array([ True, False, False, True, 





False, 


这 个 布尔 型 数组 可 用 于 数组 索引 : 


In [88]: data[names == 'Bob'] 

Out[88 |] : 

array([[-0.048 ， 0.5433, -0.2349, 1.2792], 
[ 2.1452, 0.8799, -0.0523, 0.0672]]) 


布尔 型 数组 的 长 度 必 须 跟 被 索引 的 轴 长 度 一 
致 。 此 外 ， 还 可 以 将 布尔 型 数组 跟 切 斤 、 整 数 〈 或 
整数 序列 ， 稍 后 将 对 此 进行 详细 讲解 ) 混合 使 用 : 

| data[names == 'Bob', 2:] 


array([[-0.2349， 1.2792], 
[-0.0523, 0.0672]]) 


In [90]: data[names == 'Bob', 3] 
Out[90]: array([ 1.2792, 0.0672]) 


要 选择 除 "Bob" 以 外 的 其 他 值 ， 既 可 以 使 用 不 
等 于 符号 〈!=) ， 也 可 以 通过 负 号 《一 ) 对 条 件 进 
何 公 是 : 





In [91]: names != 'Bob' 
Out[91]: array([False, True, True, False, True, True, Truel], d 
In [92]: data[-(names == 'Bob')] 
Out[92]: 
array([[-0.268 , 0.5465, 0.0939, -2.0445], 
[-0.047 ， -2.026 ， 0.7719, 0.3103], 
[-1.0023, -0.1698, 1.1503, 1.7289], 
[ 0.1913, 0.4544, 0.4519, 0.5535], 
[ 0.5994, 0.8174, -0.9297, -1.2564]]) 





选取 这 三 个 名 字 中 的 两 个 需要 组 合 应 用 多 个 布 


尔 和 条件， 使 用 & (和 ) 、| (或 ) 之 类 的 布尔 算术 运 
算 符 即 可 : 


In [93]: mask = (names == "Bob') | (names == 'Wil1') 


In [94]: mask 
Out[94]: array([True, False, True, True, True, False, Falsel], 


In [95]: data[mask] 

Out[95 |] : 

array([[-0.048 ， 0.5433, -0.2349, 1.2792], 
-0.047 ， -2.026 ， 0.7719, 0.3103], 
2.1452, 0.8799, -0.0523, 0.0672], 
-1.0023, -0.1698, 1.1503, 1.7289]]) 


通过 布尔 型 索引 选取 数组 中 的 数据 ， 将 总 是 创 
建 数 据 的 副本 ， 即 使 返回 一 模 一 样 的 数组 也 是 如 
ls 


站 mr 


警告 : Python 关键 字 and 和 or 在 布尔 型 数组 中 





通过 布尔 型 数组 设置 信和 旦 一 种 经 名 用 到 的 手 
段 。 为 了 将 data 中 的 所 有 人 负 值 都 设置 为 0%， 我 们 只 
十 : 
In [96]: data[data < 0] = 0 


In [97]: data 


Out[97]: 

array([[ 9， ， 0.5433， 0. ， 1.2792], 
[ 9. 0.5465, 0.0939, 0. 5 
[ 0， ， 0， ， 0.7719, 0.3103], 
[ 2.1452, 0.8799, 0， ， 0.0672], 
[ 90. ， 0. ， 1.1503, 1.7289], 


[ 
[ 


0.1913, 
0.5994, 


0.4544, 
0.8174, 


0. 
0. 


4519, 


了 


0.5535] 


0. 


了 


11) 


通过 一 维 布尔 数组 设置 整 行 或 列 的 值 也 很 简 


In [98]: 
In [99]: 


Out [99 ] : 
array([[ 


站 门 mm 


data[names 
data 

7. 

0. 

2 

7. , 

7. 
0.1913, 
0.5994, 


化 式 农 引 


花 式 索引 (Fancy indexing) 是 一 个 NumPy 术 


语 ， 它 指 的 是 利用 整数 数组 进行 


一 个 8x4 数 组 : 


In [100] : 


In [101] : 


In [102] : 
Out[102]: 


array([[ 
[ 


[ 
[ 
[ 
[ 


OONNNON 


I= "Joe'] =7 


OONNNON 


arr = np.empty((8, 4)) 


for i in range(8): 
arr[i] = i 


arr 


ORPOODNOPO 
OPNOPO 


OPNOPO 


~ 、 


OPODNOPO 


[| 


~ 、、 


OONNNON 


5535 


Dd ed dd | 一 一 】 [一 一 上】 ed 


~ ~ ~ ~ ~ ~ 


索引 。 


假设 我 们 有 


[ 6., 6., 6., 6.], 
PRs. Re ee |] 


为 了 以 特定 顺序 选取 行 子 集 ， 只 需 传 入 一 个 用 
于 指定 顺序 的 整数 列表 或 ndarray 即 可 : 


In [103]: arr[[4, 3, ©0, 6]] 
Out[103]: 
array([[ 


[ 
[ 
[ 





4. 
3 ， 
0 
6 


OO) 加 由 
OO 


OO 


], 
], 
]， 
]] ) 





这 段 代 码 确实 达到 我 们 的 要 求 了 ! 使 用 负数 索 
引 将 会 从 末尾 开始 选取 行 : 


In [104]: arr[[-3, -5, -7]] 


Out[104]: 

array([[ 5., 5., 5., 5.1], 
Cn Sr Soy “Gis 
[1s 1 liy :17]]) 


一 次 传 入 多 个 索引 数组 会 有 一 点 特别 。 它 返回 
的 是 一 个 一 维 数 组 ， 其 中 的 元 素 对 应 各 个 索引 元 
组 : 


# reshape 的 知识 将 在 第 12 草 中 讲 散 
In [105]: arr = np.arange(32).reshape((8, 4)) 











In [106]: arr 
Out[106 1] : 
array([[ 0，1， 2, 3], 
/ 5) 6, 7], 
[ 8, 9, 10, 11], 
[12, 13, 14, 15], 
[16, 17, 18, 19], 
[20, 21, 22, 23], 


[24, 25, 26, 27], 
[28, 29, 30, 31]]) 


In [107]: arr[[1i, 5, 7, 2], [09, 3, 1, 2]] 
Out[107]: array([ 4, 23, 29, 10]) 


我 们 来 看 看 具体 是 怎么 一 回 事 。 最 终 选 出 的 是 
元 素 (1,0)、(5,3)、(7,1) 和 (2,2)。 这 个 花 式 索 引 的 行 
为 可 能 会 跟 某 些 用 户 的 预期 不 一 样 〈 包 括 我 在 
内 ) ， 选 取 甜 阵 的 行列 子 集 应 该 是 沧 形 区 域 的 形式 
才 对 。 下 面 是 得 到 该 结果 的 一 个 办 法 : 











In [108]: arr[[1i, 5, 7, 2]][:, [0, 3, 1, 2]] 
Out[108]: 
array([[ 4, 7, 5, 6], 

[20，23，21，22] ， 

[28, 31, 29, 30], 

[ 8, 11, 9, 10]]) 


另外 一 个 办 法 是 使 用 np.ix_ 函 数 ， 它 可 以 将 两 
个 一 维 整 数 数组 转换 为 一 个 用 于 选取 方形 区 域 的 过 
引 蕉 : 
In [109]: arr[np,Ix_ ([1，5，7，2]，[0，3，1，2])] 
Out [109] : 
array([[ 4, 7， 5, 6], 
[20, 23, 21, 22], 


[28, 31, 29, 30], 
[ 8, 11, 9, 10]]) 


记 住 ， 论 式 索 引 跟 切片 不 一 样 ， 它 忌 是 将 数据 
复制 到 新 数组 中 。 


数组 转 置 和 轴 对 换 


转 置 (transpose) 是 重 塑 的 一 种 特殊 形式 ， 它 
返回 的 是 源 数 据 的 视图 (不 会 进行 任何 复制 操 
作 ) 。 数 组 不 仅 有 transpose 方 法 ， 还 有 一 个 特殊 的 
T 属 性: 


In [110]: arr = np.arange(15).reshape((3, 5)) 





In [111]: arr 

Out[111] : 

array([[ 0， 1, 27 3/ 4], 
[ 5, 6, 7, 8, 9], 
[10, 11, 12, 13, 14]]) 

In [112]: arr.T 


Out [112 ] : 

array([[ 0， 5, 10], 
[ 1, 6, 11], 
[ 2, 7, 12], 
[ 3, 8, 13], 
[ 4, 9, 14]]) 


在 进行 矩阵 计算 时 ， 经 常 需 要 用 到 该 操作 ， 比 
如 利用 np.dot 计 算 和 矩阵 内 积 X1X: 


In [113]: arr = np.random.randn(6, 3) 


In [114]: np.dot(arr.T, arr) 


Out [114]: 

array([[ 2.584 ， 1.8753, 0.88881], 
[ 1.8753, 6.6636, 0.3884] ， 
[ 0.8888, 0.3884, 3.9781]]) 


对 于 高 维 数 组 ，transpose 需 要 得 到 一 个 由 轴 编 
号 组 成 的 元 组 才能 对 这 些 轴 进 行 转 置 〈 比 较 费 脑 


下 


In [115]: arr = np.arange(16).reshape((2, 2, 4)) 


In [116]: arr 


Out [116 ] : 

array([[[ 0, 1, 2, 3], 
[ 4, 5, 6, 7]], 
[[ 8, 9, 10, 11], 
[12, 13, 14, 15]]1]) 


In [117]: arr.transpose((1, 0, 2)) 
Out[117] : 
array([[[ 0, 1, 2, 3], 

[ 8, 9, 10, 11]], 

[[ 4, 5, 6, 7], 

[12, 13, 14, 15]]1]) 


简单 的 转 置 可 以 使 用 .T， 它 其 实 束 是 进行 轴 对 
换 而 已 。ndarray 还 有 一 个 swapaxes 方 法 ， 它 需要 接 
受 一 对 轴 编 号 : 
In [118]: arr 
Out [118 ] : 


array([[[ 0, 1, 2, 3], 
[ 4, 5, 6, 7|]], 





[[ 8, 9, 10, 11], 
[12, 13, 14, 15]]1]) 
In [119]: arr.swapaxes(1, 2) 


Out[119]: 

array([[[ 9, 4], 
[ 1, 5], 
[ 2, 6], 
[ 3, 7]], 
[[ 8, 12], 
[ 9, 13], 
[10, 141], 


[11, 15]]]) 


swapaxes 也 是 返回 源 数 据 的 视图 (不 会 进行 任 
何 复 制 操作 〉。 


详 注 1; 括 写 外 面 的 “维度 ”是 一 维 、 二 维 、 三 维 、 
四 维 之 类 的 童 思 ， 而 括号 里 面 的 应 该 理解 为 “ 轴 ”。 
也 融 是 说 ， 这 里 指 的 是 “返回 的 低 维 数组 台 有 原始 
高 维 数 组 茶 条 轴 上 的 所 有 数据 ”。 








通用 函数 : 快速 的 元 系 级 数组 函数 


通用 函数 〈《 即 ufunc〉 是 一 种 对 ndarray 中 的 数 
据 执 行 元 素 级 运算 的 函数 。 你 可 以 将 其 看 做 简单 也 
数 〈 接 受 一 个 或 多 个 标量 值 ， 并 产生 一 个 或 多 个 标 
量 值 ) 的 和 拓 量 化 包装 器 。 


许多 ufunc 都 是 简单 的 元 素 级 变 体 ， 如 sqrt 和 和 


exp: 








In [120]: arr = np.arange(10) 


In [121]: np.sqrt(arr) 
Out[121]: 


array([ 0. ， 工 ， ， 1.4142， 1.7321, 2. , 2.2361, 2.44 
2.6458, 2.8284, 3. ]) 

In [122]: np.exp(arr) 

Out[122 |] : 

array([ 1. ) 2.7183, 7.3891, 20.0855, 
148.4132, 403.4288, 1096.6332, 2980.958 ， 


这 些 都 是 一 元 Cunary) ufunc。 男 外 一 些 (如 
add 或 maximum) 接受 2 个 数组 〈 因 此 也 叫 二 元 
Cbinary) ufunc) ， 并 返回 一 个 结果 数组 : 


In [123]: x = randn(8) 
In [124]: y = randn(8) 
In [125]: x 


Out[125]: 
array([ 0.0749, 0.0974, 0.2002, -0.2551, 0.4655, 0.9222, 


In [126]: y 
Out[126 1] : 
array([ 0.267 ，-1.1131，-0.3361， 0.6117, -1.2323, 0.4788, 





In [127]: np.maximum(x，y) # 元 素 级 最 大 值 
Out[127] : 
array([ 0.267 , 0.0974, 0.2002, 0.6117, 0.4655, 0.9222, 


虽然 并 不 常见 ， 但 有 些 ufunc 的 确 可 以 返回 多 
个 数组 。modf 就 是 一 个 例子 ， 它 是 Python 内 置 函 数 
divmod 的 矢量 化 版 本 ， 用 于 浮 点 数 数组 的 小 数 和 整 
数 部 分 。 


In [128]: arr = randn(7) * 5 





In [129]: np.modf(arr ) 

Out[129]: 

(array([-0.6808, 0.0636, -0.386 , 0.1393, -0.8806, 0.9363, 
array([-2., 4., -3., 5., -3., 3., -6.|])) 


表 4-3 和 表 4-4 分 别 列 出 了 一 些 一 元 和 二 元 
Ufunc 。 


表 4-3: 一 元 ufunc 
abs、fabs 


sqrt 
square 


exp 


log、log10、log2、 


sign 
ceil 
floor 
rint 
modf 


isnan 


isfinite、 isinf 


EOS COSh.. ft, 


tan、tanh 


log1p 


sinh、 


说 明 

计算 整数 、 浮 点 数 或 复数 的 绝对 值 。 对 于 非 复 数值 ， 可 以 
使 用 更 快 的 fabs 

计算 各 元 素 的 平方 根 。 相 当 于 arr ** 0.5 

计算 各 元 素 的 平方 。 相 当 于 arr ** 2 

计算 各 元 素 的 指数 e* 

分 别 为 自然 对 数 (底数 为 e) 、 放 数 为 10 的 log、 底 数 为 2 的 
log、log(1 + XxX) 

计算 各 元 素 的 正 负 号 : 1 ( 正 数 ) 、0 ( 零 ) 、 一 1 (负数 ) 
计算 各 元 素 的 ceiling 值 ， 即 大 于 等 于 该 值 的 最 小 整数 
计算 各 元 素 的 floor 值 ， 即 小 于 等 于 该 值 的 最 大 整数 


将 各 元 素 值 四 舍 五 入 到 最 接近 的 整数 ,保留 dtype 
将 数组 的 小 数 和 整数 部 分 以 两 个 独立 数组 的 形式 返回 
返回 一 个 表示 “哪些 值 是 NaN (这 不 是 一 个 数字 ) ” 
尔 型 数组 

分 别 返回 一 个 表示 “哪些 元 素 是 有 穷 的 ( 非 inf， 非 
NaN) ”或 “哪些 元 素 是 无 穷 的 ”的 布尔 型 数组 

普通 型 和 双 曲 型 三 角 函 数 


的 布 





表 4-3: 一 元 ufunc ( 续 ) 


arccos、arccosh、arcsin、 


arcsinh、arctan、arctanh 


logical_not 


说 明 
反 三 角 函 数 


计算 各 元 素 not x 的 真 值 。 相 当 于 -arr 





表 4-4: 二 元 Ufunc 


函数 说 明 

add 将 数组 中 对 应 的 元 素 相 加 

subtract 从 第 一 个 数组 中 减 去 第 二 个 数组 中 的 元 素 

multiply 数组 元 素 相 乘 

divide、floor_divide ”除法 或 向 下 圆 整除 法 (丢弃 余数 ) 

power < 个 数组 中 的 元 素 A， 根 据 第 二 个 数组 中 的 相应 元 素 B， 计 
算 R 

maximum 、fmax 元 素 级 的 最 大 值 计 算 。fmax 将 忽略 NaN 

minimum、fmin 元 素 级 的 最 小 值 计 算 。fmin 将 忽略 NaN 

mod 元 素 级 的 求 模 计 算 (除法 的 余数 ) 

copysign 将 第 二 个 数组 中 的 值 的 符号 复制 给 第 一 个 数组 中 的 值 

greater、greater_equal、 执行 元 素 级 的 比较 运算 ， 最 终 产生 布尔 型 数组 。 相 当 于 中 缀 运 

less、less_equal、 = ==y 址 


equal、not_equal 


logical_and、logical_or、 执行 元 素 级 的 真 值 逻辑 运算 。 相 当 于 中 缀 运算 符 &、|、^ 
logical_xor 





利用 数组 进行 数据 处 理 


NumPy 数 组 使 你 可 以 将 许多 种 数据 处 理 任 务 表 
述 为 何洁 的 数组 表达 式 〈 否 则 需要 编写 循环 ) 。 用 
数组 表达 式 代 人 答 循环 的 做 法 ， 通 第 被 称 为 天 量化 。 
一 般 来 说 ， 矢 量化 数组 运算 要 比 等 价 的 纯 Python 方 
式 快 上 一 两 个 数量 级 〈 甚 至 更 多 ) ， 尤 其 是 各 种 数 
值 计 算 。 在 后 面 内 容 中 〈 见 第 12 章 〉 我 将 介绍 广 
播 ， 这 是 一 种 针对 矢量 化 计算 的 强大 手段 。 

假设 我 们 想 要 在 一 组 值 〈 网 格 型 ) 上 计算 函数 
sqrt(XA2+yA2)。np.meshgrid 函 数 接受 两 个 一 维 数 
组 ， 并 产生 两 个 二 维 定 阵 《对 应 于 两 个 数组 中 所 有 
的 (xX,y) 对 ) : 


In [130]: points = np.arange(-5，5，0.01) # 1000 个 间隔 相等 的 点 











In [131]: xs, ys = np.meshgrid(points, points) 


In [132]: ys 
Out[132 1] : 


array([[-5. , -5. , -5. , ..., -5. , -5. , -5. |], 
[-4.99, -4.99, -4.99, ..., -4.99, -4.99, -4.99], 
[-4.98, -4.98, -4.98, ..., -4.98, -4.98, -4.98], 
[ 4.97, 4.97, 4.97, ..., 4.97, 4.97, 4.97], 
[ 4.98, 4.98, 4.98, ..., 4.98, 4.98, 4.98], 
[ 4.99, 4.99, 4.99, ..., 4.99, 4.99, 4.99]]) 





现在 ， 对 该 函数 的 求 值 运算 束 好 办 了 ， 把 这 两 


个 数组 当做 两 个 浮 后 数 那 样 编写 表达 式 即 可 : 


In [134]: import matplotlib.pyplot as plt 

In [135]: z = np.sqrt(xs ** 2 + ys ** 2) 

In [136]: z 

Out[136]: 

array([[ 7.0711, 7.064 , 7.0569, ..., 7.0499, 7.0569, 
[ 7.064 ， 7.0569, 7.0499, ..., 7.0428, 7.0499, 
[ 7.0569, 7.0499, 7.0428, ...) 7.0357, 7.0428, 
[ 7.0499, 7.0428, 7.0357, ..., 7.0286， 7.0357, 
[ 7.0569, 7.0499, 7.0428, ...) 7.0357, 7.0428, 
[ 7.064 ， 7.0569, 7.0499, ..., 7.0428, 7.0499, 

In [137]: plt.imshow(z, cmap=plt.cm.gray); pilt.colorbar() 

Out[137]: <matplotlib.colorbar.Colorbar instance at Ox4e46d40> 

In [138]: pilt.title("Image plot of $\sqrt{x^2 + y^2}$ for a gr 

Out[138]: <matplotlib.text.Text at Ox4565790> 


水 数值 (一 个 二 维 数 组 ) 的 图 形 化 结果 如 图 4- 
3 所 示 。 这 张 图 我 是 用 matplotlib 的 imshow 函 数 创建 


的 。 





将 条 件 逻 辑 表 述 为 数组 运算 


numpy.where 岗 数 是 三 元 表达 式 x if condition 
elsey 的 天 量化 版 本 。 假 设 我 们 有 一 个 布尔 数组 和 
两 个 值 数 组 : 


In [140] : 


xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5]) 


In [141]: yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5]) 


In [142]: cond = np.array([True, False, True, True, Falsel]) 





Image plot of Vz2 +y fora grid of values 
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图 4-3: 根据 网 格 对 函数 求 值 的 结果 


假设 我 们 想 要 根据 cond 中 的 值 选 取 xarr 和 yarr 的 
值 ， 当 cond 中 的 值 为 Trne 时 ， 选 取 xarr 的 值 ， 盏 则 
从 yarr 中 选取 。 列 表 推 导 式 的 写法 应 该 如 下 所 示 : 


In [143]: result = [(x if celse y) 
站 和 for x, y, c in zip(xarr，yarr，cond )] 














In [144]: result 
Out[144]: [1.1000000000000001, 2.2000000000000002, 1.3, 1.3999 


这 有 几 个 问题 。 第 一 ， 它 对 大 数组 的 处 理 速 度 
不 是 很 快 〈 因 为 所 有 工作 都 是 由 纯 Python 完 成 
的 ) 。 第 二 ， 无 法 用 于 多 维 数 组 。 和 使 用 
np.where， 则 可 以 将 该 功能 写 得 非常 简洁 : 





In [145]: result = np.where(cond, xarr, yarr) 


In [146]: result 
Out[146]: array([ 1.1, 2.2, 1.3, 1.4, 2.5]) 


np.where 的 第 二 个 和 第 三 个 参数 不 必 是 数组 ， 
它们 都 可 以 是 标量 值 。 在 数据 分 析 工 作 中 ，where 
通 第 用 于 根据 另 一 个 数组 而 产生 一 个 新 的 数组 。 假 
设 有 一 个 由 随机 数据 组 成 的 窍 阵 ， 你 希望 将 所 有 正 
值 殖 换 为 2， 将 所 有 负 值 符 换 为 一 2。 和 后 利用 
np.where， 则 会 非常 简单 : 











In [147]: arr = randn(4, 4) 


In [148]: arr 
Out[148]: 


array([[ 0.6372, 2.2043, 1.7904, 0.0752], 
[-1.5926, -1.1536, 0.4413, 0.3483], 
[-0.1798, 0.3299, 0.7827, -0.7585], 
[ 0.5857, 0.1619, 1.3583, -1.3865]]) 


In [149]: np.where(arr > 0, 2, -2) 
Out[149 ] : 

array([[ 2, 2， 2, 2], 
[-2, -2, 27 2]， 
[-2 2 27 -2]， 
[ 2, 2， 2, -2]]) 


In [150]: np.where(arr > 9，2，arr) # 只 将 正 值 设置 为 2 


了 


Out[150] : 

array([[ 2. A 2 i 2 I 
[-1.5926, -1.1536, 2 ， 2， ] ， 
[-0.1798, 2 2， ，-0.7585]， 
[ 2. 六 泛 2 ，-1.3865]]) 


传递 给 where 的 数组 大 小 可 以 不 相等 ， 甚 至 可 
以 是 标量 值 。 








只 要 稍微 动 动 脑子 ， 你 就 能 用 where 表 述 出 更 
复杂 的 逻辑 。 想象 一 下 这 样 一 个 例子 ， 我 有 两 个 布 
尔 型 数组 cond1 和 cond2， 和 希望 根据 4 种 不 同 的 布尔 
值 组 合 实现 不 同 的 赋值 操作 : 





result = [] 
for i in range(n): 
If condi[i] and cond2[i]: 
result.append(0) 
elif cond1i[i]: 
result.append(1) 
elif cond2[i]: 
result.append(2) 
else: 
result.append(3) 


虽然 不 是 非常 明显 ， 但 这 个 for 循 环 确实 可 以 被 
改写 成 一 个 骸 套 的 where 表 达 式 : 


np.where(cond1 & cond2, 0, 
np.where(cond1i, 1, 
np. where (cond2, 2, 3))) 


在 这 个 特殊 的 例子 中 ， 我 们 还 可 以 利用 “布尔 
a 
所 以 还 能 将 其 写成 下 面 这 样 的 算术 运算 《虽然 看 上 
去 有 点 神秘 ) 


result = 1 * (cond1 -cond2) + 2 * (cond2 & -cond1) + 3 * -(con 


数学 和 统计 方法 














可 以 通过 数组 上 的 一 组 数学 函数 对 整个 数组 或 
有 某 个 轴 同 的 数据 进行 统计 计算 。sum、mean 以 及 标 
准 震 std 等 聚合 计算 (aggregation， 通 稍 叫 做 约 简 
Creduction) ) 既 可 以 当做 数组 的 实例 方法 调用 ， 
也 可 以 当做 顶级 NumPy 函 数 使 用 : 





In [151]: arr = np.random.randn(5，4) # 正 态 分 布 的 数据 

In [152]: arr.mean() 

Out[152]: 0.062814911084854597 

In [153]: np.mean(arr) 

Out[153]: 0.062814911084854597 

In [154]: arr.sum() 

Out[154]: 1.2562982216970919 

mean 和 sum 这 类 的 函数 可 以 接受 一 个 axis 参 数 

《用 于 计算 该 轴 癌 上 的 统计 值 ) ， 最 终结 有 末 是 一 个 
一 维 的 数组 : 

In [155]: arr.mean(axis=1) 

Out[155]: array([-1.2833, 0.2844, 0.6574, 0.6743, -0.0187]) 

In [156]: arr.sum(0) 

Out[156]: array([-3.1003, -1.6189, 1.4044, 4.5712]) 





其 他 如 cumsum 和 cumprod 之 类 的 方法 则 不 聚 
而 是 产生 一 个 由 中 间 结 果 组 成 的 数组 : 








In [157]: arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]]) 
In [158]: arr.cumsum(0) 
Out[158]: 


array([[ 90， 


1, 2], 


[ 3, 5， 7], 
[ 9, 12, 15]]) 
In [159]: arr.cumprod(1) 
Out[159 ] : 
array([[ 0， 0， 0], 
[ 3, 12， 60], 
[ 6, 42, 336]]) 


表 4-5 列 出 了 全 部 的 基本 数组 统计 方法 。 后 续 
章节 中 有 很 多 例子 都 会 用 到 这 些 方法 。 


表 4-5: 基本 数组 统计 方法 





DIA 说 明 

sum 对 数组 中 全 部 或 某 轴 向 的 元 素 求 和 。 零 长 度 的 数组 的 sum 为 0 
mean 算术 平均 数 。 零 长 度 的 数组 的 mean 为 NaN 

std、var 分 别 为 标准 差 和 方差 ， 自 由 度 可 调 (默认 为 n) 

min、 max 最 大 值 和 最 小 值 

argmin、argmax 分 别 为 最 大 和 最 小 元 素 的 索引 

表 4-5: 基本 数组 统计 方法 ( 续 ) 

网 法 说 明 

cumsum 所 有 元 素 的 累计 和 

cumprod 所 有 元 素 的 累计 积 





用 于 布尔 型 数组 的 方法 


在 上 面 这 些 方法 中 ， 布 尔 值 会 被 强制 转换 为 
1 (True) 和 0 (False〉。 因 此 ，sum 经 常 被 用 来 对 
布尔 型 数组 中 的 True 值 计数 : 


In [160]: arr = randn(100) 


In [161]: (arr > 0).sum() # 正 值 的 数量 
Out[161]: 44 


另外 还 有 两 个 方法 any 和 all， 它 们 对 布尔 型 数 
组 非常 有 用 。any 用 于 测试 数组 中 是 否 存 在 一 个 或 
多 个 Trne， 而 纠 则 检查 数组 中 所 有 值 是 否 都 是 


True: 





In [162]: bools = np.array([False, False, True, Falsel]) 


In [163]: bools.any() 
Out[163]: True 


In [164]: bools.all() 
Out[164]: False 


这 两 个 方法 也 能 用 于 非 布尔 型 数组 ， 所 有 非 0 
元 素 将 会 被 当做 True。 


排序 


跟 Python 内 置 的 列表 关 型 一 梓 ，NumPy 数 组 也 
可 以 通过 sort 方 法 束 地 排 友 : 


In [165]: arr = randn(8) 


In [166]: arr 
Out[166]: 
array([ 0.6903, 0.4678, 0.0968, -0.1349, 0.9879, 0.0185, 


In [167]: arr.sort() 
In [168]: arr 
Out[168 ] : 
array([-1.3147, -0.5425, -0.1349, 0.0185, 0.0968, 0.4678, 


多 维 数组 可 以 在 任何 一 个 轴 癌 上 进行 排序 ， 只 
需 将 轴 编 号 传 给 


In [169]: 


In [170]: 
Out[170]: 
array([[- 


[- 


In [171]: 


In [172] : 
out [172] : 
-1.6331, 
-1.3132， 
-1.6748， 
-2.468 
-1.0516, 


array([[ 
[ 


[ 
[ 
[ 


1 


arr 


©OOPOO 


7139, 
8236, 
6748， 
3161, 
9058, 


| EN | 
POWOPP 


6331， 
3132， 
0336, 
5362 ， 
1184， 


arr.sort(1) 


arr 


了 


1 1 0 1 
©O©OOO0on 


7139, 
1935, 


863 


站 


3161, 
9058, 


合 sortB 5]: 


arr = randn(5, 3) 


4959] ， 
1935]， 
863 ]， 
468 ]， 
6516]]) 


4959] ， 
8236] ， 
0336]， 
5362] ， 
1184]]) 


顶级 方法 np.sort 返 回 的 古 数 组 的 已 排序 副本 ， 
而 束 地 排序 则 会 修改 数组 本 里 。 计 算数 组 分 位 数 最 
简单 的 办 法 是 对 其 进行 排序 ， 然 后 选取 特定 位 置 的 


值 : 


In [173]: 
In [174]: 


In [175]: 
Out[175]: 


large_arr = randn(1000) 


large_arr.sort() 


large_arr[int(0.05 * len(large_arr))] # 5% 分 位 数 


-1.5791023260896004 


更 多 基于 NumPy 排 序 方法 以 及 诸如 间接 排序 之 


类 的 高 级 技术 ， 





请 参阅 第 12 章 。 在 pandas 中 还 可 以 


找到 一 些 其 他 跟 排 序 有 天 的 数据 操作 《比如 根据 一 
列 或 多 列 对 表格 型 数据 进行 排序 ) 。 


唯一 化 以 及 其 他 的 集合 逻辑 


NumPy 提 供 了 一 些 针对 一 维 ndarray 的 基本 集合 
运算 。 最 常用 的 可 能 要 数 np.unique 了 ， 它 用 于 找 出 
数组 中 的 唯一 值 并 返回 已 排序 的 结 


In [177]: np.unique(names) 


Out[177]: 
array(['Bob', 'Joe', ‘'Will'], 
dtype= ' |S4  ) 


In [178]: ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4]) 


In [179]: np.unique(ints) 
Out[179]: array([1, 2, 3, 4]) 


拿 跟 np.unique 等 价 的 纯 Python 代 码 来 对 比 一 
下 : 


In [180]: sorted(set(names)) 
Out[180]: ['Bob', 'Joe', 'Will'] 


为 一 个 函数 np.in1d 用 于 测试 一 个 数组 中 的 值 在 
男 一 个 数组 中 的 成 员 资 格 ， 返 回 一 个 布尔 型 数组 : 


In [181]: values = np,array([6，0，0，3，2，5，6]) 








In [182]: np.inid(values, [2, 3, 6]) 


Out[182]: array([ True, False, False, True, True, False, Tr 


NumPy 中 的 集合 函数 请 参见 表 4-6。 


表 4-6: 数组 的 集合 运算 


方法 说 明 

unique(x) 计算 x 中 的 唯一 元 素 ， 并 返回 有 序 结果 

intersect1d(x, y) 计算 x 和 y 中 的 公共 元 素 ， 并 返回 有 序 结 

union1d(x, y) 计算 x 和 y 的 并 集 ， 并 返回 有 序 结果 

in1d(x, y) 得 到 一 个 表示 “x 的 元 素 是 否 包含 于 y” 的 布尔 型 数组 

setdiff1d(x, y) 集合 的 差 ， 即 元 素 在 x 中 且 不 在 y 中 

setxor1d(x, y) i 即 存在 于 一 个 数组 中 但 不 同时 存在 于 两 个 数组 中 的 
和 








译注 2: 作 蕴 单 点 说 ， 就 是 “ 异 或 ”。 


用 于 数组 的 文件 输入 输出 


NumpPy 能 够 读 写 磁盘 上 的 文本 数据 或 二 进 制 数 
据 。 后 面 的 章节 将 会 告诉 你 一 些 pandas 中 用 于 将 表 
格 型 数据 读 取 到 内 存 的 工具 。 


将 数组 以 二 进 制 格式 保存 到 磁盘 


np.save 和 np.load 是 恋 写 磁盘 数组 数据 的 两 个 主 
要 函数 。 默 认 情 况 下 ， 数 组 是 以 未 压缩 的 原始 二 进 
制 格 式 保存 在 扩展 名 为 .npy 的 文件 中 的 。 
In [183]: arr = np,arange(10) 


In [184]: np.save('some_ array', arr) 


如 果 文 件 路 径 末 尾 没 有 扩展 名 .npy， 则 该 扩展 
名 会 被 自动 加 上 。 然 后 束 可 以 通过 np.load 读 取 人 磁 税 
上 的 数组 : 


In [185]: np.load('some 0 oy ') 
Out[185]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]1) 


通过 np.savez 可 以 将 多 个 数组 保存 到 一 个 压缩 
文件 中 ， 将 数组 以 关键 字 参 数 的 形式 传 入 即 可 : 


In [186]: np.savez('array_archive.npz', a=arr, b=arr) 


加 载 .npz 文 件 时 ， 你 会 得 到 一 个 类 似 字典 的 对 
象 ， 该 对 象 会 对 各 个 数组 进行 延迟 加 载 : 


In [187]: arch = np.load('array_archive.npz') 


In [188]: arch['b'] 
Out[188]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 


和 存 取 文本 文件 


从 文件 中 加 载 文本 是 一 个 非常 标准 的 任务 。 
Python 中 的 文件 读 写 函数 的 格式 很 容易 将 新 手 捕 
军 ， 所 以 我 将 主要 介绍 pandas 中 的 read_csv 利 
read_table 函 数 。 有 时 ， 我 们 需要 用 np.loadtxt 或 更 为 
专门 化 的 np.genfromtxt 将 数据 加 载 到 普通 的 NumPy 
数组 中 。 


这 些 函 数 都 有 许多 选项 可 供 使 用 ， 指 定 各 种 分 
隔 符 、 针 对 特定 列 的 转换 器 函数 、 需 要 跳 过 的 行 数 
等 。 以 一 个 简单 的 逗号 分 隔 文件 《CSV) 为 例 : 


In [191]: !cat array_ex,txt 3 
0.580052,0.186730,1.040717,1.134411 
0.194163, -0.636917, -0.938659,0.124094 
-0.126410,0.268607, -0.695724,0.047428 
-1.484413,0.004176, -0.744203,0.005487 
2.302869,0.200131,1.670238, -1.881090 
-0.193230,1.047233,0.482803,0.960334 


该 文件 可 以 被 加 载 到 一 个 二 维 数组 中 ， 如 下 所 
人 小: 


In [192]: arr = np.loadtxt('array_ ex.txt', delimiter=',"') 


In [193]: arr 


Out[193]: 

array([[ 0.5801, 0.1867, 1.0407, 1.1344], 
[ 0.1942, -0.6369, -0.9387, 0.1241], 
[-0.1264, 0.2686, -0.6957, 0.0474], 
[-1.4844, 0.0042, -0.7442, 0.0055], 
[ 2.3029, 0.2001, 1.6702, -1.8811], 
[-0.1932, 1.0472, 0.4828, 0.9603]]) 


np.savetxt 执 行 的 是 相反 的 操作 : 将 数组 写 到 以 
有 某 种 分 隔 符 隔 开 的 文本 文件 genfromtxt 跟 loadtxt 
和 差不多 ， 只 不 过 它 面 问 的 是 结构 化 数组 和 缺失 数据 
处 理 。 更 多 有 关 结 构 化 数组 的 知识 ， 请 参阅 第 12 


注意 : 更 多 有 关 文 件 读 写 〈 尤 其 是 表格 型 数 
据 ) 的 知识 ， 请 参阅 本 书后 面 有 关 pandas 和 
DataFrame 对 入 的 革 节 。 

















译注 3: 这 是 Linux 的 ，Windows 得 用 type。 


线性 代数 


线性 代数 (如 和 矩阵 乘法 、 和 矩阵 分 解 、 行 列 式 以 
及 其 他 方 阵 数学 等 ) 是 任何 数组 库 的 重要 组 成 部 
分 。 不 像 某 些 语言 (如 MATLAB) ， 通 过 * 对 两 个 
二 维 数组 相 乘 得 到 的 是 一 个 元 素 级 的 积 ， 而 不 是 一 
个 矩阵 点 积 。 因 此 ，NumpPy 提 供 了 一 个 用 于 和 矩阵 乘 
法 的 dot 函 数 〔( 既 是 一 个 数组 方法 也 是 numpy 命 名 空 
间 中 的 一 个 函数 ) : 


In [194]: x = np.array([[1., 2., 3.], [4., 5., 6.]]) 





In [195]: y = np.array([[6., 23.], [-1i, 7], [8, 9]]) 


In [196]: x In [197]: y 
Out[196]: Out[197]: 
array([[ 1., 2., 3.1], array([[ 6., 23.1], 
[ 4., 5., 6.]]) [ -1., 7.], 
[ 8. 9.1]) 


In [198]: x.dot(y) # 相当 于 np.dot(x，y) 
Out[198]: 
array([[ 28., 64.1], 

[ 67., 181.]]) 


一 个 二 维 数组 跟 一 个 大 小 合适 的 一 维 数组 的 矩 
阵 扩 积 运算 之 后 将 会 得 到 一 个 一 维 数 组 : 


In [199]: np.dot(x, np.ones(3)) 
Out[199]: array([ 6., 15.1]1) 


numpy.linalg 中 有 一 组 标准 的 矩阵 分 解 运算 以 





及 诸如 求 沙 和 行列 式 之 类 的 东西 。 它 们 跟 MATLAB 
和 R 等 语言 所 使 用 的 是 相同 的 行业 标准 级 Fortran 
库 ， 如 BLAS、LAPACK、Intel MKL (可 能 有 ， 取 
决 于 你 的 NumPy 版 本 〉 等 : 


In [201]: from numpy.linalg import inv, qr 





In [202]: X = randn(5, 5) 
In [203]: mat = X.T.dot(X) 


In [204]: inv(mat) 


Out[2041]: 

array([[ 3.0361, -0.1808, -0.6878, -2.8285, -1.1911], 
[-0.1808, 0.5035, 0.1215, 0.6702, 0.0956], 
[-0.6878, 0.1215, 0.2904, 0.8081, 0.3049], 
[-2.8285, 0.6702, 0.8081, 3.4152, 1.1557], 
[-1.1911, 0.0956, 0.3049, 1.1557, 0.6051]]) 


In [205]: mat.dot(inv(mat)) 


Out[205]: 

array([[ 1., 0., 0., 0., -0.1], 
[ 0., 1., -0., 0., 0.], 
[ 0., -0., 1., 0., 0.], 
[ 0., -0., -0,., 1., -0.], 
[ 0., 0., 0., 0., 1.]]) 

In [206]: q, r = qr(mat) 

In [207]: r 

Out [207]: 

array([[ -6.9271, 7.389 ， 6.1227， -7.1163, -4.9215], 
[ 0， ， -3.9735, -0.8671, 2.9747， -5.7402], 
[ 9. ， 0. ， -10.2681, 1.8909, 1.6079], 
[ 9 ， 9， ， 9， ， -1.2996, 3.3577], 
[ 9 ， 0 ， 0， ， 0， ， 0.5571]]) 


表 4-7 中 列 出 了 一 些 最 音 用 的 线性 代数 函数 。 


注意 : Python 科学 计算 社区 盼望 着 有 天 一 日 能 
实现 矩阵 乘法 的 中 绥 运 算 符 ， 以 便 能 用 一 种 更 漂亮 
的 语法 代 蔡 np.dot。 不 过 目前 束 只 能 先 这 样 了 。 


表 4-7: 常用 的 numpy.linalg 函 数 





函数 说 明 

diag 以 一 维 数组 的 形式 返回 方 阵 的 对 角 线 (或 非 对 角 线 ) 元 素 ， 或 将 一 维 数组 
转换 为 方 阵 ( 非 对 角 线 元 素 为 0) 

dot 德 阵 乘法 

trace 计算 对 角 线 元 素 的 和 

det 计算 矩阵 行列 式 

eig 计算 方 阵 的 本 征 值 和 本 征 向 量 

inv 计算 方 阵 的 逆 

pinv 计算 矩阵 的 Moore-Penrose 伪 逆 

qr 计算 QR 分 解 

svd 计算 奇异 值 分 解 (SVD) 





solve 解 线 性 方程 组 Ax = b， 其 中 人 A 为 一 个 方 阵 
lstsq 计算 Ax = b 的 最 小 二 乘 解 





随机 数 生成 


numpy.random 模 块 对 Python 内 置 的 random 进 行 
了 补 序 ， 增 加 了 一 些 用 于 高 效 生 成 多 种 概率 分 布 的 
样本 值 的 函数 。 例 如 ， 你 可 以 用 normal 来 得 到 一 个 
标准 正 态 分 布 的 4x4 样 本 数组 : 





In [208]: samples 


In [209]: samples 

Out [209]: 

array([[ 0.1241, 
[ 1.3438, 


[-1.8608,，- 
[ 0.1198,- 


0 
-0 
0 
1 





np.random.normal(size=(4, 4)) 


.3026, 0.5238, 0.0009], 
.7135, -0.8312, -2.3702], 
.8608, 0.5601, -1.2659], 
.0635, 0.3329, -2.3594]]) 


而 Python 内 置 的 random 模 块 则 只 能 一 次 生成 一 
个 样本 值 。 从 下 面 的 测试 结果 中 可 以 看 出 ， 如 果 需 
要 产生 大 量 样本 值 ，numpy.random 快 了 不 止 一 个 数 





量 级 : 





In [210]: from random import normalvariate 


In [211]: N = 1000000 


In [212]: %timeit samples = [normalvariate(©0, 1) for 


in xran 


1 loops, best of 3: 1.33 s per loop 


In [213]: %timeit np.random.normal(size=N) 
10 loops, best of 3: 57.7 ms per loop 


表 4-8 列 出 了 numpy.random 中 的 部 分 函数 。 在 


下 一 节 中 ， 我 将 给 出 一 些 利用 这 些 函 数 一 次 性 生成 
大 量 样本 值 的 范例 。 


表 4-8: 部 分 numpy.random 国 数 





函数 说 明 

seed 确定 随机 数 生成 器 的 种 子 

permutation ”返回 一 个 序列 的 随机 排列 或 返回 一 个 随机 排列 的 范围 
shuffle 对 一 个 序列 就 地 随机 排列 

rand 产生 均匀 分 布 的 样本 值 

randint 从 给 定 的 上 下 限 范 围 内 随机 选取 整数 

randn 产生 正 态 分 布 ( 平 均值 为 0%， 标 准 差 为 1) 的 样本 值 ， 类 似 于 MATLAB 接 口 
binomial 产生 二 项 分 布 的 样本 值 

normal 产生 正 态 (高斯) 分 布 的 样本 值 

beta 产生 Beta 分 布 的 样本 值 

表 4-8: 部 分 numpy.random 函 数 ( 续 ) 

函数 说 明 


chisquare 产生 卡 方 分 布 的 样本 值 
gamma 产生 Gamma 分 布 的 样本 值 
uniform 产生 在 [0, 1) 中 均匀 分 布 的 样本 值 





光 例 : 随机 漫步 


我 们 通过 模拟 随机 漫步 来 说 明 如 何 运 用 数组 运 
算 。 先 来 看 一 个 简单 的 随机 漫步 的 例子 : 从 0 开 
台 ， 步 长 1 和 一 1 出 现 的 概率 相等 。 我 们 通过 内 置 的 
random 模 块 以 纯 Python 的 方式 实现 1000 步 的 随机 漫 
步 : 
Import random 
position = 0 
walk = [position] 
steps = 1000 
for i In xrange(steps): 
step = 1 if random.randint(0, 1) else -1 


position += step 
walk.append(position) 


图 4-4 是 根据 前 100 个 随机 漫步 值 生 成 的 折线 





Random walk with +1/-1 steps 








图 4-4: 简单 的 随机 漫步 


不 难看 出 ， 这 其 实 束 是 随机 漫步 中 各 步 的 累计 
和 ， 可 以 用 一 个 数组 运算 来 实现 。 因 此 ， 我 用 
np.random 模 块 一 次 性 随机 产生 1000 个 “ 撕 人 硬币 ”结果 
《 即 两 个 数 中 任 选 一 个 ) ， 将 其 分 别 设置 为 1 或 一 
1， 然 后 计算 累计 和 : 


In [215]: nsteps = 1000 








In [216]: draws = np.random.randint(0, 2, size=nsteps) 
In [217]: steps = np.where(draws > 0, 1, -1) 


In [218]: walk = steps.cumsum() 


有 了 这 些 数据 之 后 ， 我 们 束 可 以 做 一 些 统计 工 
作 了 ， 比 如 求 取 最 大 值 和 最 小 值 : 





In [219]: walk.min() 
Out[219]: -3 
In [220]: walk.max() 
Out[220]: 31 


现在 来 看 一 个 复杂 点 的 统计 任务 一 一 首次 罕 越 
时 则 ， 即 随机 漫步 过 程 中 第 一 次 到 达 某 个 特定 值 的 
时 间 。 假 设 我 们 想 要 知道 本 次 随机 漫步 需要 多 久 才 
能 距离 初始 0 点 至 少 10 步 远 〈 任 一 方 同 均 可 ) 。 
np.abs(walk)>=10 可 以 得 到 一 个 布尔 型 数组 ， 它 表 
示 的 是 距离 是 否 达 到 或 超过 10， 而 我 们 想 要 知道 的 
是 第 一 个 10 或 一 10 的 索引 。 可 以 用 argmax 来 解决 这 
个 问题 ， 它 返回 的 是 该 布尔 型 数组 第 一 个 最 大 值 的 
索引 《True 束 是 最 大 值 ): 











In [221]: (np.abs(walk) >= 10).argmax() 
Out[221]: 37 


注意 ， 这 里 使 用 argmax 并 不 是 很 高 效 ， 因 为 它 
无 论 如 何 都 会 对 数组 进行 完全 扫描 。 在 本 例 中 ， 只 
要 发 现 了 一 个 True， 那 我 们 束 知 道 它 是 个 最 大 值 
J 


一 次 模拟 多 个 随机 漫步 
如 果 你 和 希望 模拟 多 个 随机 漫步 过 程 〈 比 如 5000 


个 ) ， 只 需 对 上 面 的 代码 做 一 点 点 修改 即 可 生成 所 
有 的 随机 漫步 过 程 。 只 要 给 numpy.random 的 函数 传 





入 一 个 三 元 元 组 就 可 以 产生 一 个 二 维 数 组 ， 然 后 我 
们 就 可 以 一 次 性 计算 5000 个 随机 漫步 过 程 (一 行 一 
个 ) 的 累计 和 了 : 


In [222]: nwalks = 5000 





In [223]: nsteps = 1000 

In [224]: draws = np.random.randint(0, 2, size=(nwalks, nsteps 
In [225]: steps = np.where(draws > 0, 1, -1) 

In [226]: walks = steps.cumsum(1) 


In [227]: walks 


Out[227] : 

array([[ 1, 0 ， i 8, 7, 8], 
[ 1, 0, -1, ..., 34, 33, 32], 
[ 1, 0, -1, pe 4, 5) 4], 
[ A 2, 1, ..., 24, 25, 26], 
[ 1, 2, 3, ..., 14, 13, 14], 
EF 21 2 4 3 -221]) 


现在 ， 我 们 来 计算 所 有 随机 漫步 过 程 的 最 大 值 
和 最 小 值 : 
In [228]: walks.max() 
Out[228]: 138 


In [229]: walks.min() 
Out[229]: -133 


得 到 这 些 数 据 之 后 ， 我 们 来 计算 30 或 一 30 的 最 
小 罕 越 时 间 。 这 里 得 要 稍微 动 一 下 脑筋 ， 因 为 不 是 
5000 个 过 程 都 到 达 了 30。 我 们 可 以 用 any 方 法 来 对 
此 进行 检查 : 








In [230]: hits30 = (np.abs(walks) >= 30).any(1) 


In [231]: hits30 
Out[231]: array([False, True, False, ..., False, True, Falsel], 


In [232]: hits30.,sum() # 到 达 30 或 一 30 的 数量 
Out[232]: 3410 


然后 我 们 利用 这 个 布尔 型 数组 选 出 那些 罕 越 了 
30《〈 绝 对 值 ) 的 随机 漫步 〈 行 ) ， 并 调用 argmax 在 
轴 1 上 获取 罕 越 时 间 : 


In [233]: crossing_times = (np.abs(walks[hits30]) >= 30) ,argma 











In [234]: crossing_times ,mean( ) 
Out[234]: 498 .88973607038122 


请 尝试 用 其 他 分 布 方式 得 到 漫步 数据 。 只 需 使 
用 不 同 的 随机 数 生 成 函数 即 可 ， 如 normal 用 于 生成 
指定 均值 和 标准 差 的 正 态 分 布 数 据 : 


In [235]: steps = np.random.normal(loc=0, scale=0.25, 
ed size=(nwalks, nsteps)) 








第 5 章 ”pandas 入 门 


pandas 是 本 书后 续 内 容 的 首选 库 。 它 含有 使 数 
据 分 析 工 作 变 得 更 快 更 简单 的 高 级 数据 结构 和 操作 
工具 。pandas 是 基于 NumPy 构 建 的 ， 让 以 NumPy 为 
中 心 的 应 用 变 得 更 加 人 简单。 


先 介 绍 一 点 背景 。 我 是 在 2008 年 早期 还 在 
AQR (一 家 定量 投资 管理 公司 ) 任职 期 间 开 始 着 手 
构建 pandas 的 。 那 时 候 ， 没 有 任何 一 个 单独 的 工具 
能 够 满足 我 工作 上 的 全 部 需求 : 


具备 按 轴 目 动 或 显 式 数据 对 齐 功 能 的 数据 结 
构 。 这 可 以 防止 许多 由 于 数据 未 对 齐 以 及 来 目 不 同 
数据 源 (索引 方式 个 同 ) 的 数据 而 导致 的 肖 见 错 


大。 


























集成 时 间 序 列 功 能 。 


既 能 处 理 时 间 序 列 数据 也 能 处 理 非 时 间 序 列 
数据 的 数据 结构 。 


“数学 运算 和 约 简 (比如 对 茶 个 轴 求 和 ) 可 以 
根据 不 同 的 元 数据 ( 轴 编 写 ) 执行 。 


:灵活 处 理 缺 失 数 据 。 








.合并 及 其 他 出 现在 常见 数据 库 〔 例 如 基于 SQL 
的 ) 中 的 关系 型 运算 。 


我 希望 能 够 在 一 个 地 方 完成 所 有 这 些 事情 ， 最 
好 是 一 种 能 进行 通用 软件 开发 的 语言 。Python 是 一 
门 不 错 的 候选 语言 ， 但 那 时 候 它 还 没有 一 组 能 完 
提供 上 述 功能 的 数据 结构 和 工具 。 


在 过 去 的 4 年 中 ，pandas 逐 渐 成 长 为 一 个 非常 
大 的 库 ， 它 所 能 解决 的 数据 处 理 问题 已 经 比 我 期 望 
的 要 多 得 多 了 。 但 随 着 其 范围 的 扩大 ， 它 也 逐渐 背 
离 了 我 最 初 所 期 望 的 简 尘 性 和 易 用 性 。 我 希望 你 在 
该 完 本 书 之 后 ， 也 能 像 我 一 样 认 为 它 是 一 个 不 可 或 
缺 的 工具 。 


在 本 书后 续 部 分 中 ， 我 将 使 用 下 面 这 样 的 
pandas 引 入 约定 : 








In [1]: from pandas import Series, DataFrame 


In [2]: import pandas as pd 


因此 ， 只 要 你 在 代码 中 看 到 pd.， 就 得 想到 这 是 
pandas。 因 为 Series 和 DataFrame 用 的 次 数 非常 多 ， 
所 以 将 其 引入 本 地 命名 空间 中 会 更 方便 。 








pandas 的 数据 结构 介绍 


要 使 用 pandas， 你 首先 就 得 熟悉 它 的 两 个 主要 
数据 结构 :Series 和 DataFrame。 虽 然 它 们 并 不 能 解 
决 所 有 问题 ， 但 它们 为 大 多 数 应 用 提供 了 一 种 可 菲 
的 、 易 于 使 用 的 基础 。 








Serles 


Series 是 一 各 类似 于 一 维 数组 的 对 象 ， 它 由 一 
组 数据 (各 种 NumPy 数 据 类 型 ) 以 及 一 组 与 之 相关 
的 数据 标签 〈 即 索引 ) 组 成 。 仅 由 一 组 数据 即 可 产 
生 最 简单 的 Series: 


In [4]: obj = Series([4, 7, -5, 3]) 


In [5]: obj 
Out[5]: 
0 4 
1 7 
2 -5 
3 3 


Series 的 字符 串 表 现形 式 为 : 索引 在 左边 ， 值 
在 右边 。 由 于 我 们 没有 为 数据 指定 索引 ， 于 是 会 自 
动 创建 一 个 0 到 N1 (N 为 数据 的 长 上 度 ) 的 整数 型 过 
引 。 你 可 以 通过 Series 的 values 和 index 属 性 获取 其 
数组 表示 形式 和 索引 对 象 : 





In [6]: obj.values 
Out[6]: array([ 4, 7, -5, 3]) 


In [7]: obj.index 
Out[7]: Int64Index([0, 1, 2, 3]) 


通常 ， 我 们 希望 所 创建 的 Series 市 有 一 个 可 以 
对 各 个 数据 点 进行 标记 的 索引 : 


In [9]: obj2 


Out[9] : 
d 4 
b 7 
a -5 
C 3 


In [10]: obj2.index 
Out[10]: Index([d, b, a, cl], dtype=object) 


与 普通 NumPy 数 组 相 比 ， 你 可 以 通过 索引 的 方 
式 选 取 Series 中 的 单个 或 一 组 值 : 


In [11]: obj2['a'] 
Out[11]: -5 


In [12]: obj2['d'] = 6 


In [13]: obj2[['c', 'a', 'd']] 
Out[13]: 


C 3 
a -5D 
d 6 





NumPy 数 组 运算 ( 如 根据 布尔 型 数组 进行 过 
小 、 标 量 弱 法 、 应 用 数学 函数 等 ) 部 会 你 留 索 引 和 


值 之 间 的 链接 : 


In [14]: 
Out[14]: 
d 

b 

a 

C 

In [15]: 
Out[15] : 
d 6 
b 7 

C 3 


obj2 

6 

7 

-5 

3 

obj2[obj2 > 0] In [16]: obj2 * 2 In [17]: 
Out[16]: Out[17]: 
d 12 d 403 
b 14 b 1096 
a -10 a 0 
C 6 C 20 


还 可 以 将 Series 看 成 是 一 个 定 长 的 有 序 字典 ， 
因为 它 是 索引 值 到 数据 值 的 一 个 映射 。 它 可 以 用 在 
许多 原本 需要 字典 参数 的 函数 中 : 


In [18]: 
Out[18]: 


In [19]: 
Out[19]: 


'b' in obj2 
True 
'e' in obj2 
False 


如 果 数 据 被 存放 在 一 个 Python 字典 中 ， 也 可 以 
直接 通过 这 个 字典 来 创建 Series: 


In [20]: 
In [21]: 


In [22]: 
Out [221]: 


Ohio 
Oregon 
Texas 


sdata = {'0hio': 35000, 'Texas': 71000, 'Oregon': 160 
obj3 = Series(sdata) 

obj3 

35000 


16000 
71000 


Utah 5000 


如 朱 只 传 入 一 个 字典 ， 则 结 条 Series 中 的 索引 
就 是 原 字 典 的 键 “《“ 有 序 排 列 ) 。 


In [23]: states = ['California', 'Ohio', 'Oregon', 'Texas ' ] 





In [24]: obj4 = Series(sdata, index=states) 
In [25]: obj4 
Out[25] : 


California NaN 
Ohio 35000 
Oregon 16000 
Texas 71000 


在 这 个 例子 中 ，sdata 中 跟 states 索 引 相 匹配 的 
那 3 个 值 会 被 找 出 来 并 放 到 相应 的 位 置 上 ， 但 由 
于 "California" 所 对 应 的 sdata 值 找 不 到 ， 上 所 以 其 结 
束 为 NaN〔 即 “ 非 数 字 ”(not a number) ， 在 pandas 
中 ， 它 用 于 表示 缺失 或 NA 值 〉。 我 将 使 用 缺失 
(missing) 或 NA 表示 缺失 数据 。pandas 的 isnul 和 
notnull 函 数 可 用 于 检测 缺失 数据 : 


In [26]: pd.isnull(obj4) In [27]: pd.notnull(obj4) 
Out[26]: Out[27]: 

California True California False 

Ohio False Ohio True 
Oregon False Oregon True 
Texas False Texas True 


Series 也 有 类 似 的 实例 方法 : 


In [28]: obj4.isnull() 
Out [28]: 


California True 


Ohio False 
Oregon False 
Texas False 


我 将 在 本 章 详 细 讲 解 如 何 处 理 缺 失 数 据 。 


对 于 许多 应 用 而 言 ，Series 最 重要 的 一 个 功能 
是 : 它 在 算术 运算 中 会 自动 对 齐 不 同 过 引 的 数据 。 








In [29]: obj3 In [30]: obj4 
Out[29]: Out[30]: 

Ohio 35000 California NaN 
Oregon 16000 Ohio 35000 
Texas 71000 Oregon 16000 
Utah 5000 Texas 71000 
In [31]: obj3 + obj4 

Out[31]: 

California NaN 

Ohio 70000 

Oregon 32000 

Texas 142000 

Utah NaN 


数据 对 齐 功 能 将 在 一 个 单独 的 主题 中 讲解 。 


Series 对 象 本 身 及 其 索引 都 有 一 个 name 属 性 ， 
该 属性 跟 pandas 其 他 的 关键 功能 关系 非常 密切 : 


In [32]: obj4.name = 'population' 





In [33]: obj4.index.name = 'state' 


In [34]: obj4 
Out[34]: 

state 

California NaN 


Ohio 35000 
Oregon 16000 
Texas 71000 
Name: population 


Series 的 索引 可 以 通过 赋值 的 方式 加 地 修改 : 


In [35]: obj.index = ['Bob', 'Steve', 'Jeff', "Ryan '] 


In [36]: obj 
Out[36]: 


CQ 
_ 
下 
—h 
1 
WO 


DataFrame 





DataFrame 是 一 个 表格 型 的 数据 结构 ， 它 含有 
一 组 有 序 的 列 ， 每 列 可 以 是 不 同 的 值 类 型 〈 数 值 、 
字符 串 、 布 尔 值 等 ) 。DataFrame 既 有 行 索 引 也 有 
列 索引 ， 它 可 以 被 看 做 由 Series 组 成 的 字典 〈 共 用 
同一 个 索引 ) 。 跟 其 他 类 似 的 数据 结构 相 比 (如 R 
的 data.frame) ，DataFrame 中 面 回 行 和 面 问 列 的 操 
作 基 本 上 是 平衡 的 。 其 实 ，DataFrame 中 的 数据 是 
以 一 个 或 多 个 二 维 块 存放 的 《而 不 是 列表 、 字 — 典 或 
别 的 一 维 数据 结 构 〉。 有 关 DataFrame 内 部 的 技术 
细节 远 远 超出 了 本 书 所 讨论 的 范围 。 


注意 : 虽然 DataFrame 是 以 二 维 结构 保存 数据 
的 ， 但 你 仍然 可 以 轻松 地 将 其 表示 为 更 高 维度 的 数 








据 《〈 层 次 化 索引 的 表格 型 结构 ， 这 是 pandas 中 许多 
高 级 数据 处 理 功 能 的 关键 要 素 ， 我 们 稍 后 再 来 讨论 


这 个 问题 ) 。 


构建 DataFrame 的 办 法 有 很 多 ， 最 背 用 的 一 种 
是 直接 传 入 一 个 由 等 长 列表 或 NumPy 数 组 组 成 的 字 
典 . 


人 





data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'l], 
'year': [2000, 2001, 2002, 2001, 2002], 
'pop': [1.5, 1.7, 3.6, 2.4, 2.9]} 
frame = DataFrame(data) 


结果 DataFrame 会 目 动 加 上 索引 〈 跟 Series 一 
样 ) ， 且 全 部 列 会 被 有 序 排列 : 


In [38]: frame 
Out[38]: 

pop state year 
1.5 Ohio 2000 
1.7 Ohio 2001 
3.6 Ohio 2002 
2.4 Nevada 2001 
2.9 Nevada 2002 


和 OOPO 


如 果 指 定 了 列 序列 ， 则 DataFrame 的 列 就 会 按 
照 指 定 顺 序 进行 排列 : 


In [39]: DataFrame(data, columns=['year', 'state', 'pop']) 
Out[39]: 
year state pop 
© 2000 Ohio 1.5 
1 2001 Ohio 1.7 
2 2002 Ohio 3.6 


CD 


2001 Nevada 2.4 
4 2002 Nevada 2.9 


跟 Series 一 样 ， 如 果 传 入 的 列 在 数据 中 找 不 
到 ， 束 会 产生 NA 值 : 
In [40]: frame2 = DataFrame(data, columns=['year', 'state', 'F 
ee index=['one', 'two', 'three', 'fou 


In [41]: frame2 
Out [41] : 


year state pop debt 
one 2000 ohio 1.5 NaN 
two 2001 Ohio 1.7 NaN 
three 2002 Ohio 3.6 NaN 
four 2001 Nevada 2.4 NaN 
five 2002 Nevada 2.9 NaN 


In [42]: frame2.columns 
Out[42]: Index([year, state, pop, debt], dtype=object) 


通过 类 似 字 上 典 标 记 的 方式 或 属性 的 方式 ， 可 以 
将 DataFrame 的 列 获 取 为 一 个 Series: 





In [43]: frame2['state'] In [44]: frame2.year 
Out[43]: Out[44]: 

one Ohio one 2000 

two Ohio two 2001 

three Ohio three 2002 

four Nevada four 2001 

five Nevada five 2002 

Name : State Name : year 


注意 ， 返 回 的 Series 拥 有 原 DataFrame 相 同 的 索 
引 ， 且 其 name 属 性 也 已 经 被 相应 地 设置 好 了 。 行 也 
可 以 通过 位 置 或 名 称 的 方式 进行 获取 ， 比 如 用 索引 





字段 这 《〈 稍 后 将 对 此 进行 详细 讲解 ) : 


In [45]: frame2.1IXx[L' three '] 


Out[45] : 

year 2002 
State Ohio 
pop 3.6 
debt NaN 


Name: three 


列 可 以 通过 赋值 的 方式 进行 修改 。 例 如 ， 我 们 
可 以 给 那个 空 的 "debt" 列 赋 上 一 个 标量 值 或 一 组 
值 : 


In [46]: frame2['debt'] = 16.5 





In [47]: frame2 
Out[47]: 


year state pop debt 
one 2000 Ohio 1.5 16.5 
two 2001 Ohio 1.7 16.5 
three 2002 Ohio 3.6 16.5 
four 2001 Nevada 2.4 16.5 


five 2002 Nevada 2.9 16.5 
In [48]: frame2['debt'] = np.arange(5.) 


In [49]: frame2 
Out[491]: 


year state pop debt 
one 2000 Ohio 1.5 0 
two 2001 Ohio 1.7 1 
three 2002 ohio 3.6 2 
four 2001 Nevada 2.4 3 
five 2002 Nevada 2.9 4 


将 列表 或 数组 赋值 给 某 个 列 时 ， 其 长 度 必 须 跟 
DataFrame 的 长 度 相 匹配 。 如 果 赋 值 的 是 一 个 


Series， 就 会 精确 匹配 DataFrame 的 索引 ， 所 有 的 空 
位 都 将 被 十 上 缺失 值 : 


In [50]: val = Series([-1.2, -1.5, -1.7], index=['two', 'four， 


In [51]: frame2['debt'] = val 
In [52]: frame2 
Out [521]: 


year state pop debt 
one 2000 Ohio 1.5 NaN 
two 2001 ohio 1.7 1.2 
three 2002 ohio 3.6 NaN 
four 2001 Nevada 2.4 -1.5 
five 2002 Nevada 2.9 -1.7 


为 不 存在 的 列 赋值 会 创建 出 一 个 新 列 。 关 键 字 
del 用 于 删 除 列 : 


In [53]: frame2['eastern'] = frame2.state == 'Ohio' 


In [54]: frame2 
Out[541]: 


year state pop debt eastern 
one 2000 ohio 1.5 NaN True 
two 2001 ohio 1.7 -1.2 True 
three 2002 ohio 3.6 NaN True 
four 2001 Nevada 2.4 -1.5 False 
five 2002 Nevada 2.9 -1.7 False 


In [55]: del frame2['eastern '] 


In [56]: frame2.columns 
Out[56]: Index([year, state, pop, debt], dtype=object) 


警告 : 通过 索引 方式 返回 的 列 只 是 相应 数据 的 
视图 而 已 ， 并 不 是 副本 。 因 此 ， 对 返回 的 Series 所 
做 的 任何 束 地 修改 全 都 会 反映 到 源 DataFrame 上。 


通过 Series 的 copy 方 法 即 可 显 式 地 复制 列 。 
另 一 种 第 见 的 数据 形式 是 众 套 字典 《也 了 吏 是 字 
典 的 字典 ) : 


In [57]: pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 
...: 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}} 


如 果 将 它 传 给 DataFrame， 它 就 会 被 解释 为 : 
外 层 字 典 的 键 作 为 列 ， 内 层 键 则 作为 行 索引 : 


In [58]: frame3 = DataFrame(pop) 





In [59]: frame3 


Out[59] : 

Nevada 0hio 
2000 NaN 1.5 
2001 2.4 Lv 
2002 2.9 3.6 


当然 ， 你 也 可 以 对 该 结果 进行 转 置 : 


In [60]: frame3.T 
Out[60]: 

2000 2001 2002 
Nevada NaN 2.4 2.9 
Ohio 1.5 1.7 3.6 


内 层 字 典 的 键 会 被 合并 、 排 序 以 形成 最 终 的 索 
引 。 如 来 显 式 指定 了 索引 ， 则 不 会 这 样 : 


In [61]: DataFrame(pop, index=[2001, 2002, 2003]) 
Out[61]: 

Nevada Ohio 
2001 2.4 1.7 





2002 2.9 3.6 
2003 NaN NaN 


由 Series 组 成 的 字典 兰 不 多 也 是 一 样 的 用 法 : 


In [62]: pdata = {'Ohio': frame3['O0hio'][:-1], 


'Nevada': frame3['Nevada' |][:2]} 


In [63]: DataFrame(pdata) 


Out[63]: 

Nevada Ohio 
2000 NaN 1.5 
2001 2.4 1.7 


表 5-1 列 出 了 DataFrame 构 造 函 数 所 能 接受 的 各 


种 数据 。 


表 5-1: 可 以 输入 给 DataFrame 构 造 器 的 数据 


类 型 


二 维 ndarray 


由 数组 、 列 表 或 元 组 组 成 的 字 


NumpPy 的 结构 化 /记录 数组 
由 Series 组 成 的 字典 


里 


字典 组 成 的 字典 


字典 或 Series 的 列表 


由 列表 或 元 组 组 成 的 列表 


另 一 个 DataFrame 


NumpPy 的 MaskedArray 


Ea 


说 明 

数据 和 矩阵， 还 可 以 传 入 行 标 和 列 标 

每 个 序列 会 变 成 DataFrame 的 一 列 。 所 有 序列 的 长 度 
必须 相同 

类 似 于 “由 数组 组 成 的 字典 ” 

每 个 Series 会 成 为 一 列 。 如 果 没 有 显 式 指定 索引 ， 则 
各 Series 的 索引 会 被 合并 成 结果 的 行 索 引 

各 内 层 字 典 会 成 为 一 列 。 键 会 被 合并 成 结果 的 行 索 
引 ， 跟 “由 Series 组 成 的 字典 ”的 情况 一 样 

各 项 将 会 成 为 DataFrame 的 一 行 。 字 典 键 或 Series 索 引 
的 并 集 将 会 成 为 DataFrame 的 列 标 

类 似 于 “二 维 ndarray” 

该 DataFrame 的 索引 将 会 被 沿用 ， 除 非 显 式 指 定 了 其 
他 索引 

类 似 于 “二 维 ndarray” 的 情况 ， 只 是 掩 码 值 在 结果 
DataFrame 会 变 成 NA/ 缺 失 值 





如 果 设 置 了 DataFErame 的 index 和 columns 的 name 
属性 ， 则 这 些 信息 也 会 被 显示 出 来 : 


In [64]: frame3.index.name = 'year'; frame3.columns .name = "st 


In [65]: frame3 


Out[65]: 

state Nevada Ohio 
year 

2000 NaN 1 .5 
2001 2.4 1.7 
2002 2.9 3.6 


跟 Series 一 样 ，values 属 性 也 会 以 二 维 ndarray 的 
形式 返回 DataFrame 中 的 数据 : 


In [66]: frame3.values 


Out[66]: 

array([[ nan, 1.5], 
[ 2.4, 1.7], 
[ 2.9, 3.6]]) 


如 有 果 DataFrame 各 列 的 数据 类 型 不 同 ， 则 值 数 
组 的 数据 类 型 束 会 选用 能 兼容 所 有 列 的 数据 类 型 : 


In [67]: frame2.values 
Out[67]: 
array([[2000, Ohio, 1.5, nanl], 
[2001, Ohio, 1.7, -1.2], 
[2002, Ohio, 3.6, nanl], 
[2001, Nevada, 2.4, -1.5], 
[2002, Nevada, 2.9, -1.7]], dtype=object) 


索引 对 象 








pandas 的 索引 对 象 负 责 管理 轴 标 签 和 其 他 元 数 
据 《〈 比 如 轴 名 称 等 ) 。 构 建 Series 或 DataFrame 时 ， 
所 用 到 的 任何 数组 或 其 他 序列 的 标签 都 会 被 转换 成 


一 个 Index: 
In [68]: obj = Series(range(3), index=['a', 'b', 'c']) 
In [69]: index = obj.index 
In [70]: index 
Out[70]: Index([a, b, cl], dtype=object) 
In [71]: index[1:] 
Out[71]: Index([b, cl], dtype=object) 


Index 对 象 是 不 可 修改 的 ‘immutable) ， 因 此 


用 户 不 能 


In [72]: 


Exception 


对 其 进行 修改 : 


index[1] = "'d' 


Traceback (most rece 


<ipython-input-72-676fdeb26a68> in <module>() 
----> 1 index[1] = 'd' 


/Users/wesm/code/pandas/pandas/core/index.pyc in _ setitem _( 


302 
303 
--> 304 
305 
306 


def _ setitem (self, key, value): 
"""Disable the setting of values."™™"" 
raise Exception(str(self. class ) + ' object 


def _ getitem (self, key): 


Exception: <class 'pandas.core.index.Index'> object is immutab 


不 可 修改 性 非常 重要 ， 因 为 这 样 才能 使 ndex 
对 象 在 多 个 数据 结构 之 间 安全 共享 : 


In [73]: 


In [74] 


In [75]: 
Out[75] : 


index = pd.Index(np.arange(3)) 


: 0bj2 = Series([1.5, -2.5, 0], index=index) 


obj2.index is index 
True 


表 5-2 列 出 了 pandas 库 中 内 置 的 Index 类 。 由 于 
开发 人 员 的 不 懈 努 力 ，Index 其 至 可 以 被 继承 从 而 实 
现 特别 的 轴 有 索引 功能 。 


vy 
壮 导 : 


里 然 大 部 分 用 户 部 不 需要 知道 太 多 天 于 


Index 对 象 的 细节 ， 但 它们 确实 是 pandas 数 据 模型 的 
重要 组 成 部 分 。 


表 5-2: pandas 中 主要 的 Index 对 象 


二 


Index 


Int64Index 
Multilndex 


Datetimelndex 


Periodlndex 


说 明 

最 泛 化 的 Index 对 象 ， 将 轴 标 签 表示 为 一 个 由 Python 对 象 组 成 的 NumPy 
数组 

针对 整数 的 特殊 Index 


“层次 化 ”索引 对 象 ， 表 示 单 个 轴 上 的 多 层 索 引 。 可 以 看 做 由 元 组 组 
成 的 数组 

存储 纳 秒 级 时 间 戳 (用 NumpPy 的 datetime64 类 型 表示 ) 
针对 Period 数 据 (时 间 间 隔 ) 的 特殊 Index 





除了 长 得 像 数 组 ，Index 的 功能 也 类 似 一 个 固 
定 大 小 的 集合 : 


In [76]: frame3 


Out[76]: 


state Nevada Ohio 


year 
2000 


NaN 1.5 


In [77]: 
Out[77] : 


In [78]: 
Out[78]: 


2.4 1.7 

2.9 3.6 

'Ohio' in frame3.columns 
True 


2003 in frame3.index 
False 


每 个 索引 都 有 一 些 方法 和 属性 ， 它 们 可 用 于 设 
置 馆 辑 并 回答 有 关 该 索引 所 包含 的 数据 的 稼 见 问 
题 。 表 5-3 列 出 了 这 些 函 数 。 


表 5-3: Index 的 万 法 和 属性 


方法 
append 
diff 
intersection 
union 

isin 
delete 

drop 
insert 
is_monotonic 
is_unique 


unique 


说 明 

连接 另 一 个 Index 对 象 ， 产 生 一 个 新 的 Index 
计算 差 集 ， 并 得 到 一 个 Index 

计算 交集 

计算 并 集 

计算 一 个 指示 各 值 是 否 都 包含 在 参数 集合 中 的 布尔 型 数组 
删除 索引 i 处 的 元 素 ， 并 得 到 新 的 Index 
删除 传 入 的 值 ， 并 得 到 新 的 Index 

将 元 素 插入 到 索引 i 处 ， 并 得 到 新 的 Index 

当 各 元 素 均 大 于 等 于 前 一 个 元 素 时 ， 返 回 True 
当 Index 没 有 重复 值 时 ， 返 回 True 

计算 Index 中 唯一 值 的 数组 





基本 功能 


本 节 中 ， 我 将 介绍 操作 Series 和 DataFrame 中 的 
数据 的 基本 手段 。 后 续 章 节 将 更 加 深入 地 挖掘 
pandas 在 数据 分 析 和 人 处理 方面 的 功能 。 本 书 不 是 
pandas 库 的 详尽 文档 ， 主 要 关注 的 是 最 重要 的 功 
能 ， 那 些 不 大 和 负 用 的 内 容 〈 也 就 是 那些 更 深奥 的 内 
容 ) 承 交 给 你 目 己 去 换 索 吧 。 


重新 款 引 


pandas 对 象 的 一 个 重要 方法 是 reindex， 其 作用 
是 创建 一 个 适应 新 索引 的 新 对 象 。 以 之 前 的 一 个 简 


In [80]: obj 
Out[80 |] : 




















调用 该 Series 的 reindex 将 会 根据 新 索引 进行 重 
排 。 如 果 某 个 索引 值 当前 不 存在 ， 就 引入 缺失 值 : 
In [81]: obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e']) 


In [82]: obj2 


Out[82 |] : 
a -5.3 
b 7.2 
C 3.6 
d 4.5 
e NaN 
In [83]: obj.reindex(['a', 'b', 'c', 'd', 'e'], fill value=0) 
Out[83]: 
a -5.3 
b 7.2 
C 3.6 
d 4.5 
e 0.0 


对 于 时 间 序 列 这 样 的 有 序数 据 ， 重 新 索引 时 可 
能 需要 做 一 些 插值 处 理 。method 选 项 即 可 达到 此 目 
的 ， 例 如 ， 使 用 ff 也 可 以 实现 前 问 值 填充 : 


In [84]: obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 





In [85]: obj3.reindex(range(6), method='ffil1l') 
Out[85]: 
blue 
blue 
purple 
purple 
yellow 
yellow 


表 5-4 列 出 了 可 用 的 method 选 项 。 其 实 我 们 有 
时 需要 比 前 同和 后 同 填 充 更 为 精准 的 插值 方式 。 


OPNDPO 


表 5-4: reindex 的 (插值 ) method 选 项 

参数 说 明 

ffill 或 pad 前 向 填充 (或 搬运 ) 值 
对 于 DataFrame，reindex 可 以 修改 〈 行 ) 索 


引 、 列 ， 或 两 个 都 修改 。 如 果 仅 传 入 一 个 序列 ， 则 
会 重新 索引 行 : 


In [86]: frame = DataFrame(np.arange(9).reshape((3, 3)), index 
ee columns=['Ohio', 'Texas', 'Californ 


In [87]: frame 


Out[87]: 

ohio Texas California 
a © 1 2 
c 3 4 5 
d 6 7 8 


In [88]: frame2 = frame.reindex(['a', 'b', 'c', 'd']) 


In [89]: frame2 


ohio Texas California 
a © 1 2 
b NaN NaN NaN 
C 3 4 5 
d 6 7 8 


使 用 columns 关 键 字 即 可 重新 索引 列 : 


In [90]: states = ['Texas', 'Utah', 'California'l] 


In [91]: frame.reindex(columns=states) 


Out[91]: 

Texas Utah California 
a 1 NaN 2 
C 4 NaN 5 
d 7 NaN 8 


也 可 以 同时 对 行 和 列 进 行 重 新 索引 ， 而 插值 则 
只 能 按 行 应 用 《〈 即 轴 0) : 


ee ; columns=states) 


Out[92]: 

Texas Utah California 
a 1 NaN 2 
b 1 NaN 2 
C 4 NaN 5 
d 7 NaN 8 


利用 这 的 标签 索引 功能 ， 重 新 罕 引 任务 可 以 变 
得 更 简 污 : 


In [93]: frame.ix[['a', 'b', 'c', 'd'], states] 


Out[93]: 

Texas Utah California 
a 1 NaN 2 
b NaN NaN NaN 
后 4 NaN 5 
d 7 NaN 8 


表 5-5 列 出 了 reindex 函 数 的 各 参数 及 说 明 。 


表 5-5: reindex 函 数 的 参数 





参数 说 明 

index 用 作 索 引 的 新 序列 。 既 可 以 是 Index 实 例 ， 也 可 以 是 其 他 序列 型 的 Python 数 
据 结构 。Index 会 被 完全 使 用 ， 就 像 没有 任何 复制 一 样 

method ”插值 (填充 ) 方式 ， 具 体 参 数 请 参见 表 5-4 

fill_value ”在 重新 索引 的 过 程 中 ， 需 要 引入 缺失 值 时 使 用 的 替代 值 

limit 前 向 或 后 向 填充 时 的 最 大 填充 量 

level 在 Multilndex 的 指定 级 别 上 匹配 简单 索引 ， 否 则 选取 其 子 集 

copy 默认 为 True， 无 论 如 何 都 复制 ， 如 果 为 False， 则 新 旧 相 等 就 不 复制 

去 和 佐 指 定 轴 上 的 项 


丢 奔 东 条 轴 上 的 一 个 或 多 个 项 很 简单 ， 只 要 有 
一 个 索引 数组 或 列表 即 可 。 由 于 需要 执行 一 些 数据 
整理 和 集合 逻辑 ， 所 以 drop 方 法 返回 的 是 一 个 在 指 
定 轴 上 删除 了 指定 值 的 新 对 象 : 


: 0bj = Series(np.arange(5.), index=['a', 'b', 'c', 'd!' 


In [94] 


In [95]: 


In [96]: 


new_ obj = obj.drop('c') 


new_obj 


out[96]: 


a 0 


b 1 
d 3 
e 4 


: obj.drop(['d', 'c']) 


对 于 DataFrame， 可 以 删除 任意 轴 上 的 索引 
值 : 


In [98]: data = DataFrame(np.arange(16).reshape((4, 4)), 
A index=['O0hio', 'Colorado', 'Utah’', ' 
columns=['one', 'two', 'three', "fou 
In [99]: data.drop(['Colorado', 'Ohio']) 
Out[99] : 
one two three four 
Utah 8 9 10 11 
New York 12 13 14 15 
In [100]: data.drop('two', axis=1) [101]: data.drop(['two' 
Out[100]: Out[101]: 
one three four one three 
Ohio 0 2 3 Ohio 0 2 
Colorado 4 6 7 Colorado 4 6 
Utah 8 10 11 Utah 8 10 
New York 12 14 15 New York 12 14 


索引 、 


选取 和 过 


十 滤 


Series 索 引 〈obj[...]) 的 工作 方式 类 似 于 NumPy 


数组 的 索引 ， 
下 面 是 几 个 例子 : 


In [102]: 


In [103]: 
Out[103]: 


In [105]: 
Out[105]: 


C 2 
d 3 


In [107]: 


obj = Series(np.arange(4.), index=['a', 


obj['b '] 
1.0 
obj[2:4] 


obj[[1, 3]] 


In [104]: 
Out[104]: 


In [106]: 
Out[106]: 


b 
a 
d 


In [108]: 


只 不 过 Series 的 索引 值 不 只 是 整数 。 


'B"; 


obj[1] 
1.0 
obj[[l'b', 'a', 'd']] 
1 

0 

3 


obj[obj < 2] 


Out[107] : Out [108 ] : 
b 1 a 0 
d 3 b 1 


利用 标签 的 切记 运算 与 普通 的 Python 切记 运算 
不 同 ， 其 末端 是 包含 的 (inclusive) "1; 


In [109]: obj['b':'c"] 


out[109]: 
b 1 
c 2 


设置 的 方式 也 很 徐 单 : 
in [110]: obj['b':'c'] = 5 


In [111]: obj 


Out[111] : 
a 0 
b 5 
c 5 
d 3 


如 你 所 见 ， 对 DataFrame 进 行 索 引 其 实 就 是 获 
取 一 个 或 多 个 列 : 
In [112]: data = DataFrame(np.arange(16).reshape((4, 4)), 
本 index=['O0hio', 'Colorado', 'Utah', 


columns=['one', 'two', 'three', 'fc 


In [113]: data 


Out [113] : 

one two three four 
Ohio © 1 2 3 
Colorado 4 5 6 7 
Utah 8 9 10 11 


New York 12 13 14 15 


In [114]: data[ two '] In [115]: data[['three', 'one']] 


Out[114] : Out[115] : 

Ohio 1 three one 
Colorado 5 Ohio 2 0 
Utah 9 Colorado 6 4 
New York 13 Utah 10 8 
Name: two New York 14 12 


这 种 索引 方式 有 有 几 个 特殊 的 情况 。 首 先 通 过 切 
所 或 布尔 型 数组 选取 行 : 


In [116]: data[:2] In [117]: data[data[ 'thre 
Out[116] : Out[117] : 

one two three four one two thre 

Ohio 0 1 2 3 Colorado 4 5 € 

Colorado 4 5 6 7 Utah 8 9 16C 

New York 12 13 14 





有 些 读者 可 能 会 认为 这 不 太 合 乎 逻辑 ， 但 这 种 
语法 的 的 确 确 来 源 于 实践 。 另 一 种 用 法 是 通过 布尔 
型 DataFrame《〈 比 如 下 面 这 个 由 标量 比较 运算 得 出 
的 ) 进行 索引 : 


In [118]: data < 5 








Out[118 ] : 

one two three four 
Ohio True True True True 
Colorado True False False False 
Utah False False False False 


New York False False False False 
In [119]: data[ldata < 5] = 0 


In [120]: data 
Out[120] : 

one two three four 
Ohio © © © © 
Colorado 0 5 6 7 


Utah 
New York 


这 上 段 代码 的 目的 是 使 DataFrame 在 i 


ndarray。 


为 了 在 DataFrame 的 行 上 进行 标签 索引 ， 


8 
12 


9 10 
13 14 





吾 法 上 更 像 


我 引 


入 了 专门 的 索引 字段 这 。 它 使 你 可 以 通过 NumPy 式 
的 标记 法 以 及 轴 标 签 从 DataFrame 中 选取 行 和 列 的 





子 集 。 之 前 兽 提 到 过 ， 这 也 是 一 种 重新 索引 的 简单 


手段 : 


In [121]: 
Out [121]: 
two 
three 
Name: Colorado 
In [122]: data. 
Out[122] : 

four 
Colorado 7 
Utah 11 
In [123]: data 
Out[123]: 
one 8 
two 9 
three 10 
four 11 
Name: Utah 
In [125]: data 
Out[125]: 

one 
Colorado 0 
Utah 8 
New York 12 


data.ix['Colorado', ['two', 


ix[['Colorado', 


one two 


0 5 
8 9 
ix[2] 


.ix[data.three > 5, 


two three 


5 6 
9 10 
13 14 


'three']] 


‘Utah'], [3, 90, 1]] 


In [124]: data.ix[: 
Out[124]: 

Ohio 0 
Colorado 5 

Utah 9 

Name: two 


"Utah 


也 就 是 说 ， 对 pandas 对 象 中 的 数据 的 选取 和 重 
排 方式 有 很 多 。 表 5-6 人 简单 总 结 了 人 针对 DataFrame 数 
据 的 大 部 分 选取 和 重 排 方式 。 在 使 用 层次 化 去 引 时 
还 能 用 到 一 些 别 的 办 法 ( 稍 后 束 会 讲 到 ) 。 


注意 : ”在 设计 pandas 时 ， 我 觉得 必须 输入 
frame[:,col] 才 能 选取 列 实 在 有 些 呆 (而 且 还 很 容易 
出 错 ) ， 因 为 列 的 选取 是 一 种 最 常见 的 操作 。 于 
是 ， 我 就 把 所 有 的 标签 索引 功能 都 放 到 这 中 了 。 


表 5-6: DataFrame 的 索引 选项 

类 型 说 明 

obj[val] 选取 DataFrame 的 单个 列 或 一 组 列 。 在 一 些 特殊 情况 下 会 
比较 便利 : 布尔 型 数组 (过 滤 行 ) 、 切 片 〈 行 切片 ) 、 布 
尔 型 DataFrame (根据 条 件 设置 值 ) 

obj.ix[val] 选取 DataFrame 的 单个 行 或 一 组 行 














表 5-6: DataFrame 的 索引 选项 ( 续 ) 


类 型 说 明 

obj.ix[: val] 选取 单个 列 或 列子 集 

obj.ix[val1, val2] 同时 选取 行 和 列 

reindex 方 法 将 一 个 或 多 个 轴 匹 配 到 新 索引 

xs 方 法 根据 标签 选取 单行 或 单列 ， 并 返回 一 个 Series 
icol、irow 方 法 根据 整数 位 置 选取 单列 或 单行 ， 并 返回 一 个 Series 


get_value、set_value 方 法 ”根据 行 标签 和 列 标签 选取 单个 值 。 下 ? 





译注 2: get_value 方 法 是 选取 ，set-value 方 法 是 
设置 。 


算术 运算 和 数据 对 齐 


pandas 最 和 章 要 的 一 个 功能 是 ， 它 可 以 对 不 同 索 
引 的 对 象 进 行 算 术 运 算 。 在 将 对 象 相 加 时 ， 如 果 存 
在 不 同 的 索引 对 ， 则 结果 的 索引 束 是 该 罕 引 对 的 并 
集 。 我 们 来 看 一 个 简单 的 例子 : 


In [126]: S1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 








In [127]: s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 


In [128]: si In [129]: s2 
Out[128]: Out[129]: 
a Ya a -2.1 
C -2.5 C 3.6 
d 3.4 e -1.5 
e 1.5 f 4.0 
g 3.1 


将 它们 相 加 就 会 产生 : 


In [130]: si + S2 


Out[130 ] : 
a Ss2 
C 1.1 
d NaN 
e 0.0 
f NaN 
g NaN 





自动 的 数据 对 齐 操作 在 不 重 县 的 索引 处 引入 了 
NA 值 “… 3。 缺 失 值 会 在 算术 运算 过 程 中 传播 。 


对 于 DataFrame， 对 齐 操作 会 同时 发 生 在 行 和 





刚直 


In [131]: df1 = DataFrame(np.arange(9.).reshape((3, 3)), colunr 
ne index=['Ohio', 'Texas', 'Colorado']) 


In [132]: df2 = DataFrame(np.arange(12.).reshape((4, 3)), colu 
了 index=['Utah', 'Ohio', 'Texas', "Ore 


In [133]: df1 In [134]: df2 
Out[133] : Out[134] : 
b c d b d e 
Ohio © 1 2 Utah © 1 2 
Texas 3 4 5 Ohio 3 4 5 
Colorado 6 7 8 Texas 6 7 8 
Oregon 9 10 11 





把 它们 相 加 后 将 会 返回 一 个 新 的 DataFrame， 
其 索引 和 De i 的 并 集 : 


In [135]: df1 + df2 
Out[135]: 

b c d e 
Colorado NaN NaN NaN NaN 


Ohio 3 NaN 6 NaN 
Oregon NaN NaN NaN NaN 
Texas 9 NaN 12 NaN 
Utah NaN NaN NaN NaN 


在 算术 方法 中 填充 值 





在 对 不 同 索 引 的 对 象 进行 算 术 运 算 时 ， 你 可 
希望 当 一 个 对 象 中 条 个 轴 标 签 在 另 一 个 对 象 中 找 不 
到 时 填充 一 个 特殊 值 〈 比 如 0) : 


In [136]: df1 = DataFrame(np.arange(12.).reshape((3, 4)), colu 


In [137]: df2 = DataFrame(np.arange(20.).reshape((4, 5)), colu 


In [138]: df1 In [139]: df2 
Out[138 ] : Out[139] : 
a b C d a b C d e 
0 © 1 2 3 0 0 1 2 3 4 
1 4 5 6 7 1 5 6 7 8 9 
2 8 9 10 11 2 10 11 12 13 14 
3 15 16 17 18 19 





将 它们 相 加 时 ， 没 有 重 登 的 位 置 吏 会 产生 NA 
值 : 


In [140]: df1 + df2 
Out[140] : 


18 20 22 24 NaN 
NaN NaN NaN NaN NaN 


使 用 df1 的 add 方 法 ， 传 入 df2 以 及 一 个 fi _value 
参数 : 


In [141]: df1.add(df2，fill_value=0) 
Out [141] : 


OOPO 


与 此 类 似 ， 在 对 Series 或 DataFrame 重 新 索引 
时 ， 也 可 以 指定 一 个 填充 值 : 


In [142]: dfi.reindex(columns=df2.columns, fill value=0) 
Out[142]: 


表 5-7: 灵活 的 算术 万 法 

方法 “说明 

add ”用 于 加 法 (+) 的 方法 
sub ”用 于 减法 (一 ) 的 方法 
div ”用 于 除法 (/) 的 方法 
mul “用 于 乘法 (*) 的 方法 


OPDSO 
| 
OO0NoO 
| 
PNROC 
©OOO0nN 


DataFrame 利 Series 之 间 的 运算 


跟 NumPy 数 组 一 样 ，DataFrame 和 Series 之 间 算 

术 运 算 也 是 有 明确 规定 的 。 先 来 看 一 个 具有 局 发 性 
的 例子 ， 计 算 一 个 二 维 数 组 与 其 菏 行 之 间 的 差 : 

In [143]: arr = np.arange(12.).reshape((3, 4)) 

In [144]: arr 


Out[144]: 
array([[ 


© 
[| 
CO 
一 


[ 4.， 5. 6.， 
[ 8., 


In [145]: arr[0] 
Out[145]: array([ 0., 1., 2., 3.]) 


In [146]: arr - arr[0] 

Out[146 1] : 

array([[ 0., 0., 0， 
[ 4., 4., 4 
[8 .8-8 


了 
了 


OO 


a 
sy 
i 
这 了 束 叫 做 广播 (broadcasting) ， 第 12 章 将 对 此 
进行 详细 讲解 。DataFrame 和 Series 之 间 的 运算 差 不 

多 也 是 如 此 : 
i index=['Utah', 'Ohio', 'Texas', 'C 


In [148]: series = frame.ix[0] 


In [149]: frame In [150]: series 
Out[1491]: Out[150]: 

b d e b 0 
Utah 0 1 2 d 1 
Ohio 3 4 5 e 2 
Texas 6 7 8 Name: Utah 
oregon 9 10 11 


默认 情况 下 ，DataFrame 和 Series 之 间 的 算术 运 
算 会 将 Series 的 索引 逻 配 到 DataFrame 的 列 ， 然 后 沿 
着 行 一 直 回 下 广播 : 

In [151]: frame - series 
Out [151] : 

b d 
Utah 0 0 
Ohio 3 3 


WOnD 


Texas 6 6 6 
Oregon 9 9 9 


如 果 某 个 索引 值 在 DataFrame 的 列 或 Series 的 索 
引 中 找 不 到 ， 则 参与 运算 的 两 个 对 象 束 会 家 重新 索 
引 以 形成 并 集 : 


In [152]: series2 = Series(range(3), index=['b', 'e', 'f"']) 








In [153]: frame + series2 


Out[153] : 

b d e f 
Utah © NaN 3 NaN 
Ohio 3 NaN 6 NaN 
Texas 6 NaN 9 NaN 
Oregon 9 NaN 12 NaN 


如 果 你 希望 匹配 行 且 在 列 上 广播 ， 则 必须 使 用 
算术 运算 方法 。 例 如 : 


In [154]: series3 = frame[ 'd'] 





In [155]: frame In [156]: series3 
Out[155]: Out[156]: 

b d e Utah 1 
Utah 0 1 2 Ohio 4 
ohio 3 4 5 Texas 7 
Texas 6 7 8 Oregon 10 
Oregon 9 10 11 Name: d 


In [157]: frame.sub(series3, axis=0) 


Out[157]: 

b d e 
Utah 1 9 霸 
Ohio -1 0 1 
Texas 1 0 1 
Oregon -1 0 1 





传 入 的 轴 号 就 是 希望 匹配 的 轴 。 在 本 例 中 ， 我 
们 的 目的 是 匹配 DataFrame 的 行 索引 并 进行 广播 。 评 


注 4 


函数 应 用 和 了 映射 
NumpPy 的 ufuncs (元 系 级 数组 方法 ) 也 可 用 于 


操作 pandas 对 象 : 


In [158] : 


In [159]: frame 
Out [159] ; 


Utah 
Ohio 
Texas 
Oregon 


0. 
-0.555730 
0 . 
1; 


b 
204708 


092908 
246435 


d 
0.478943 
1.965781 
0.281746 
1.007189 


e 


-0.519439 


1.393406 
0 .769023 


-1.296221 


'Ohio', 


Utah 
Ohio 
Texas 
Oregon 


frame = DataFrame(np.random.randn(4, 3), columns=1]is 

index=['Utah', 'Texas', 
In [160]: np.abs(fr 
Out[160]: 


b 
0 .204708 
0.555730 
0.092908 
1.246435 


为 一 个 常见 的 操作 是 ， 将 函数 应 用 到 由 各 列 或 
行 所 形成 的 一 维 数组 上 。DataFrame 的 apply 方 法 即 
可 实现 此 功能 : 


In [161]: f = lambda x: x.max() 


- x.min() 


In [162]: frame.apply(f) In [163]: frame.apply(f, 


Out[162]: Out[163]: 

b 1.802165 Utah 0.998382 

d 1.684034 Ohio 2.521511 

e 2.689627 Texas 0.676115 
Oregon 2.542656 


许多 最 为 常见 的 数组 统计 功能 都 被 实现 成 


DataFrame 的 方法 〈 如 sum 和 mean) ， 因 此 无 需 使 用 
apply 方 法 。 


除 标量 值 外 ， 传 递 给 apply 的 函数 还 可 以 返回 由 
多 个 值 组 成 的 Series: 
In [164]: def f(x): 
本 return Series([x.min(), x.max()], index=['min", 
In [165]: frame.apply(f) 
b d e 


min -0.555730 0.281746 -1.296221 
max 1.246435 1.965781 1.393406 


此 外 ， 元 系 级 的 Python 孙 数 也 是 可 以 用 的 。 假 
如 你 想得到 frame 中 各 个 浮 点 值 的 格式 化 字符 串 ， 
使 用 applymap 即 可 : 


In [166]: format = lambda x: '%.2f' % x 


In [167]: frame.applymap(format) 


Out[167] : 

b d e 
Utah -0.20 0.48 -0.52 
Ohio -0.56 1.97 1.39 
Texas 0.09 0.28 0.77 


Oregon 1.25 1.01 -1.30 


之 所 以 叫做 applymap， 古 因为 Series 有 一 个 用 
于 应 用 元 素 级 函数 的 map 方 法 : 


In [168]: frame['e'].map(format) 
Out[168]: 

Utah -0.52 

Ohio 1.39 


Texas 0.77 
Oregon -1.30 
Name: e 


排序 和 排名 


根据 条 件 对 数据 集 排序 (sorting) Re 
要 的 内 置 运算 。 要 对 行 或 列 索引 进行 排序 〈 按 字 
顺序 ) ， 可 使 用 sort_index 方 法 ， | 
序 的 新 对 象 : 


In [169]: obj = Series(range(4), index=['d', 'a', 'b', 'c']) 


In [170]: obj.sort_index() 


Out[170]: 
a 1 
b 2 
C 3 
d 0 


而 对 于 DataFrame， 则 可 以 根据 任意 一 个 轴 上 
的 索引 进行 排序 : 


In a frame = DataFrame(np. 0 0 ee inde 
: ， 'c']) 


columns=["d 'a', 
In [172]: frame.sort_index() In [173]: frame.sort_inde 
Out[172]: Out[173]: 
d a b c a b c d 
one 4 5 6 7 three 1 2 3 0 
three 0 1 2 3 one 5 6 7 4 


数据 默认 是 按 升序 排序 的 ， 但 也 可 以 降序 拓 
序 ; 


In [174]: frame.sort_index(axis=1, ascending=False) 
Out[174]: 
d 


耕 要 按 值 对 Series 进 行 排序 ， 可 使 用 其 order 方 
法 : 
In [175]: obj = Series([4, 7, -3, 2]1) 


In [176]: obj.order() 


Out[176]: 
2 -3 
3 2 
0 4 
1 7 


在 排序 时 ， 任 何 缺失 值 款 认 痢 会 被 放 到 Series 
的 末尾 : 


In [177]: obj = Series([4, np.nan, 7, np.nan, -3, 2]) 


In [178]: obj.order() 
Out[178]: 


NaN 


4 
5 
© 4 
2 
1 
3 NaN 


在 DataFrame 上， 你 可 能 希望 根据 一 个 或 多 
列 中 的 值 进行 排序 。 将 一 个 或 多 个 列 的 名 1 
by 选项 即 可 达到 该 目的 : 


In [179]: frame = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, © 


In [180]: frame In [181]: frame.Ssort_index(by='b ') 


Out[180 ] : Out[181] : 
a b a b 

© © 4 2 0 -3 

a ee 3 王子 2 

2 0 -3 © © 4 

3 一 十- 兴 :He 





要 根据 多 个 列 进行 排序 ， 传 入 名 称 的 列表 即 
可 : 


In [182]: frame.sort_index(by=['a', 'b']) 
Out[182] : 





排名 (ranking〉 跟 排序 关系 密切 ， 且 它 会 增设 
一 个 排名 值 〈 从 1 开始 ， 一 直到 数组 中 有 效 数 据 的 
数量 ) 。 它 跟 numpy.argsort 产 生 的 间接 排序 索引 差 
不 多 ， 只 不 过 它 可 以 根据 某 种 规则 破坏 平 级 关系 。 
接 下 来 介绍 Series 和 DataFrame 的 rank 方 法 。 默 认 情 
况 下 ，rank 是 通过 “为 各 组 分 配 一 个 平均 排名 ”的 方 
式 人 破坏 平 级 关系 的 : 








In [183]: obj = Series([7, -5, 7, 4, 2, 0, 4]) 
In [184]: obj.rank() 

Out[184]: 

0 6.5 


1 1.0 
2 6.5 
3 4.5 


4 3.0 
5 2.0 
6 4.5 


也 可 以 根据 值 在 原 数据 中 出 现 的 顺序 给 出 排名 


详 注 5 . 


In [185]: obj.rank(method= 'first ') 
Out[185]: 
0 6 


OODP 
OD 


当然 ， 你 也 可 以 按 降序 进行 排名 : 


In [186]: obj.rank(ascending=False, method='max') 


Out[186]: 
0 2 
1 7 
2 2 
3 4 
4 5 
5 6 
6 4 


表 5-8 列 出 了 所 有 用 于 破坏 平 级 关系 的 method 
选项 。DataFrame 可 以 在 行 或 列 上 计算 排名 : 


In [187]: frame = DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 
a 'c'; [-2, 5, 8, -2.5]}) 


In [188]: frame In [189]: frame.rank(axis=1) 
Out[188 ] : Out [189 ] : 
a b C a b c 


© 0 4.3 -2.0 0 2 3 1 

1 1 7.0 5.0 1 1 3 2 

2 0 -3.0 8.0 2 2 1 3 

3 1 2.0 -2.5 3 2 3 1 
表 5-8: 排名 时 用 于 破坏 平 级 关系 的 method 选 项 
method 说 明 
'average' 默认 : 在 相等 分 组 中 ， 为 各 个 值 分 配 平均 排名 
Imin' 使 用 整个 分 组 的 最 小 排名 
'max' 使 用 整个 分 组 的 最 大 排名 
‘first' 按 值 在 原始 数据 中 的 出 现 顺序 分 配 排名 





市 有 重复 值 的 轴 款 引 


直到 目前 为 止 ， 我 所 介绍 的 所 有 范例 都 有 痢 唯 
一 的 轴 标 签 〈 索 引 值 ) 。 虽 然 许 多 pandas 函 数 “〈 如 
reindex) 都 要 求 标签 唯一 ， 但 这 并 不 是 强制 性 的 。 
我 们 来 看 看 下 面 这 个 简单 的 带 有 重复 索 引 值 的 


Serles: 











In [190]: obj = Series(range(5), index=['a', 'a', 'b', 'b', 'c 


In [191]: obj 


Out[191]: 
a 0 
a 1 
b 2 
b 3 
c 4 





索引 的 is_unique 属 性 可 以 告诉 你 它 的 值 是 否 是 
唯一 的 : 


In [192]: obj.index.is_unique 
Out[192]: False 


对 于 帝 有 重复 值 的 索引 ， 数 据 选取 的 行为 将 会 
有 些 不 同 。 如 果 某 个 索引 对 应 多 个 值 ， 则 返回 一 个 
Series; 而 对 应 单个 值 的 ， 则 返回 一 个 标量 值 。 








In [193]: obj['a'] In [194]: obj['c'] 
Out[193]: Out[194]: 4 

a 0 

a 1 


对 DataFrame 的 行进 行 索 引 时 也 是 如 此 : 


In [195]: df = DataFrame(np.random.randn(4, 3), index=['a', '8 


In [196]: df 


Out[196]: 

0 业 2 
a 0.274992 0.228913 1.352917 
a 0.886429 -2.001637 -0.371843 
b 1.669025 -0.438570 -0.539741 
b 0.476985 3.248944 -1.021228 
In [197]: df.ix['b'] 
Out[197]: 

0 工 2 
b 1.669025 -0.438570 -0.539741 
b 0.476985 3.248944 -1.021228 


译注 1: 即 封 闭 区 间 。 

译注 3: 由 于 本 书 中 多 次 出 现 “ 非 重 

登 ”(overlapping) 这 个 词 ， 所 以 需要 人 简单 说 明 一 

下 。 例 如 , “飞机 场 ? 跟 “拖拉 机 ”都 有 个 “机 ”， 于 是 
可 以 认为 这 两 个 字符 串 是 “重用 ”的 ; “高 富 帅 ”和 “ 矮 
穷 挫 ”的 情况 日 然 束 是 “ 非 重 用 ” 了 。 注 意 ， 虽 然 这 











里 没有 任何 顺序 和 连续 的 概念 ， 但 有 些 地 方 是 需要 
考虑 顺序 和 连续 的 。 

译注 4: 这 里 需要 补充 说 明 一 下 ， 作 者 反复 强调 “ 广 
播 ” 会 在 第 12 间 介绍， 所 以 如 果真 看 不 懂 这 里 束 等 
到 12 草 学 完 再 看 个 人 运 。 译 者 已 经 尽量 把 原文 扩展 的 
描述 扩展 开 ， 但 是 文字 描述 始终 没有 图 形 更 具体 。 
例如 ， 你 可 以 打开 一 个 Excel， 随 意 找 一 排 单元 格 并 
输入 一 些 文字 (注意 是 一 排 ) ， 然 后 选中 这 些 单元 
格 ， 将 鼠标 移 至 选区 右 下 角 ， 当 指针 变 为 加 号 时 ， 
按 住 向 下 拉 几 行 ， 这 就 是 “ 沿 行 向 下 广播 ”。 

译注 5: 类 似 于 稳定 排序 。 











汇总 和 计算 描述 统计 


pandas 对 象 拥 有 一 组 第 用 的 数学 和 统计 方法 。 
它们 大 部 分 都 属于 约 简 和 汇总 统计 ， 用 于 从 Series 
中 提取 单个 值 (如 sum 或 mean) 或 从 DataFrame 的 行 
或 列 中 提取 一 个 Series。 跟 对 应 的 NumPy 数 组 方法 
相 比 ， eh 的 假设 而 构建 
的 。 接 下 来 看 一 个 简单 的 DataFrame: 


In eo df = DataFrame([[1.4, np.nan], [7.1, -4.5], 
[np.nan, nps nan], [0.75, -1.3]], 
index=['a' bs 'c', 'd'], 
columns=[" one， ， 'two']) 





In [199]: df 
Out[199] : 
one two 
a 1.40 NaN 
b 7.10 -4.5 
C NaN NaN 
d 0.75 -1.3 


调用 DataFrame 的 sum 方 法 将 会 返回 一 个 含有 列 
小 计 的 Series: 


In [200]: df.sum() 


Out[200]: 
one 9.25 
two -D5D.80 


传 入 axis=1 将 会 投行 进行 求 和 运算 : 


In [201]: df.sum(axis=1) 


Out[201]: 
a 1.40 
b 2.60 
c NaN 
d -0.55 


NA 值 会 自动 被 排除 ， 除 非 整 个 切 厂 ‘这 里 指 
的 是 行 或 列 ) 者 是 NA。 通 过 skipna 人 选项 可 以 共用 该 
功能 : 


In [202]: df.mean(axis=1, skipna=False) 


Out[202]: 

a NaN 
b 1.300 
c NaN 
d -0.275 


表 5-9 列 出 了 这 些 约 简 方法 的 第 用 选项 。 


表 5-9: 约 简 方法 的 选项 


选项 说 明 

axis 约 简 的 轴 。DataFrame 的 行 用 0， 列 用 1 

skipna 排除 缺失 值 ， 默 认 值 为 True 

level 如 果 轴 是 层次 化 索引 的 〈 即 Multilndex) ， 则 根据 level 分 组 约 简 





有 些 方法 〈 如 idxzmin 和 idxmax) 返回 的 是 间接 
统计 《比如 达到 最 小 值 或 最 大 值 的 索引 ) : 


In [203]: df.idxmax() 
Out[203]: 
one b 
two d 


为 一 些 方 法 则 是 累计 型 的 : 


In [204]: df.cumsum() 
Out[2041]: 
one two 
a 1.40 NaN 
b 8.50 -4.5 
C NaN NaN 
d 9.25 -5.8 


还 有 一 种 方法 ， 它 既 不 是 约 简 型 也 不 是 累计 
型 。describe 束 是 一 个 例子 ， 它 用 于 一 次 性 产生 多 
个 汇总 统计 : 


In [205]: df.describe() 


Out[205] : 

one two 
count 3.000000 2.000000 
mean 3.083333 -2.900000 
std 3.493685 2.262742 
min 0.750000 -4.500000 
25% 1.075000 -3.700000 
50% 1.400000 -2.900000 
75% 4.250000 -2.100000 
max 7.100000 -1.300000 


对 于 非 数 值 型 数据 ，describe 会 产生 男 外 一 种 
汇总 统计 : 


In [206]: obj = Series(['a', 'a', 'b', 'c'] * 4) 


In [207]: obj.describe() 
Out[207]: 
count 1 
unique 

top 

fred 


oo mm ww OO) 


表 5-10 列 出 了 所 有 与 描述 统计 相关 的 方法 。 


表 5-10: 描述 和 汇总 统计 


汀 法 

count 

describe 

min、 max 
argmin、argmax 
idxmin、idxmax 
quantile 

sum 

mean 

median 


mad 


说 明 

非 NA 值 的 数量 

针对 Series 或 各 DataFrame 列 计算 汇总 统计 
计算 最 小 值 和 最 大 值 

计算 能 够 获取 到 最 小 值 和 最 大 值 的 索引 位 置 (整数 ) 
计算 能 够 获取 到 最 小 值 和 最 大 值 的 索引 值 
计算 样本 的 分 位 数 (0 到 1) 

值 的 总 和 

值 的 平均 数 

值 的 算术 中 位 数 (50% 分 位 数 ) 

根据 平均 值 计 算 平 均 绝对 离 差 
样本 值 的 方差 

样本 值 的 标准 差 





表 5-10: 描述 和 汇总 统计 ( 续 ) 


大 
skew 
kurt 


CUMsSUuM 


cummin、cummax 


cumprod 
diff 
pct_change 


说 明 

样本 值 的 偏 度 (三 阶 甜 ) 

样本 值 的 峰 度 (四 阶 甜 ) 
样本 值 的 累计 和 

样本 值 的 累计 最 大 值 和 累计 最 小 值 
样本 值 的 累计 积 

计算 一 阶 差 分 (对 时 间 序 列 很 有 用 ) 
计算 百分数 变化 








相关 系数 与 协 方 天 


有 些 汇 总 统计 (如 相关 系数 和 协 方差 ) 是 通过 


参数 对 计算 出 来 的 。 我 们 来 看 儿 个 DataFrame， 它 
们 的 数据 来 自 Yahoo!Finance 的 股票 价格 和 成 交 量 : 


import pandas.io.data as web 
al]l_ data = {} 
for ticker in ['AAPL', 'IBM', 'MSFT', 'G00G']: 
all data[ticker] = web.get_data yahoo(ticker, '1/1/2000', ' 
price = DataFrame({tic: data[ 'Adj Close'] 
for tic, data in all data.iteritems()}) 


volume = DataFrame({tic: data['Volume'] 
for tic, data in all data.iteritems()}) 


接 下 来 计算 价格 的 百分数 变化 : 
In [209]: returns = price.pct_change() 


In [210]: returns.tail() 


Out[210]: 

AAPL GOOG IBM MSFT 
Date 
2009-12-24 0.034339 0.011117 0.004420 0.002747 
2009-12-28 0.012294 0.007098 0.013282 0.005479 
2009-12-29 -0.011861 -0.005571 -0.003474 0.006812 
2009-12-30 0.012147 0.005376 0.005468 -0.013532 
2009-12-31 -0.004300 -0.004416 -0.012609 -0.015432 


Series 的 corr 方 法 用 于 计算 两 个 Series 中 重 登 
的 、 非 NA 的 、 按 索引 对 齐 的 值 的 相关 系数 。 与 此 
类 似 ，cov 用 于 计算 协 方差: 


In [211]: returns.MSFT.corr(returns.IBM) 
Out[211]: 0.49609291822168838 





In [212]: returns.MSFT.cov(returns.IBM) 
Out[212]: 0.00021600332437329015 


DataFrame 的 corr 和 cov 方 法 将 以 DataFrame 的 形 
式 返回 完整 的 相关 系数 或 协 方差 卸 阵 : 


In [213]: returns.corr() 





Out[213]: 

AAPL GOOG IBM MSFT 
AAPL 1.000000 0.470660 0.410648 0.424550 
GOOG 0.470660 1.000000 0.390692 0.443334 
IBM 0.410648 0©0.390692 1.000000 0.496093 
MSFT 0.424550 0.443334 0.496093 1.000000 
In [214]: returns.cov() 
Out[214] : 

AAPL GOOG IBM MSFT 
AAPL 0.001028 0.000303 0.000252 0.000309 
GOOG 0©0.000303 0.000580 0.000142 0.000205 
IBM 0.000252 0.000142 0.000367 0.000216 
MSFT 0.000309 0.000205 0.000216 0.000516 


利用 DataFrame 的 corrwith 方 法 ， 你 可 以 计算 其 

列 或 行 跟 另 一 个 Series 或 DataFrame 之 间 的 相关 系 
数 。 传 入 一 个 Series 将 会 返回 一 个 相关 系数 值 
Series 〈 针 对 各 列 进行 计算 ) : 

In [215]: returns.corrwith(returns.IBM) 

Out[215]: 

AAPL 0 ,410648 

GOOG 0.390692 


IBM 1.000000 
MSFT 0 .496093 


传 入 一 个 DataFrame 则 会 计算 按 列 名 配对 的 相 
数 。 这 里 ， 我 计算 百分比 变化 与 成 交 量 的 相关 
系数 : 


In [216]: returns.corrwith(volume) 








Out[216]: 


AAPL -0.057461 
GOOG © .062644 
IBM -0.007900 
MSFT -0.014175 


传 入 axis=1 即 可 按 行进 行 计算 。 无 论 如 何 ， 在 
计算 相关 系数 之 前 ， 所 有 的 数据 项 都 会 按 标 签 对 
齐 。 


唯一 值 、 值 计数 以 及 成 员 资 格 
还 有 一 类 方法 可 以 从 一 维 Series 的 值 中 抽取 信 
轧 。 以 下 面 这 个 Series 为 例 : 


第 一 个 函数 是 unique， 它 可 以 得 到 Series 中 的 唯 
一 信 数 组 ， 


In [218]: uniques = obj.unique() 


In [219]: uniques 
Out[219]: array([c, a, d, bl], dtype=object) 


返回 的 唯一 值 是 未 排序 的 ， 如 果 需 要 的 话 ， 可 
以 对 结果 再 次 进行 排序 (uniques.sort()) 。 
value_counts 用 于 计算 一 个 Series 中 各 值 出 现 的 频 
率 : 


In [220]: obj.value_counts() 


Out[220]: 
C 3 


a 3 
b 2 
d 1 





为 了 便于 查看 ， 结 果 Series 是 按 值 频率 降序 排 
列 的 。value_counts 还 是 一 个 顶级 pandas 方 法 ， 可 用 
于 任何 数组 或 序列 : 


In [221]: pd.value counts(obj.values, sort=False) 


Out[221]: 
a 3 
b 2 
C 3 
d 1 








最 后 是 isin， 它 用 于 判断 矢量 化 集合 的 成 员 资 
格 ， 可 用 于 选取 Series 中 或 DataFrame 列 中 数据 的 子 
集 : 


In [222]: mask = obj.isin(['b', 'c']) 





In [223]: mask In [224]: obj[mask] 
Out [223]: Out[2241]: 

© True (©) C 

False 
False 
False 
False 
True 
True 
True 
True 


表 5-11 给 出 了 这 几 个 方法 的 一 些 参考 信息 。 


oo ~ OO JI 


b 
b 
C 
C 


oo ~IODOOA 和 上 wmN 忆 


表 5-11: 唯一 值 、 值 计数 、 成 员 资格 方法 


方法 说 明 
isin 计算 一 个 表示 “Series 各 值 是 否 包 含 于 传 入 的 值 序列 中 ”的 布尔 型 数组 
unique 计算 series 中 的 唯一 值 数组 ， 按 发 现 的 顺序 返回 


value_counts ”返回 一 个 Series， 其 索引 为 唯一 值 ， 其 值 为 频率 ， 按 计数 值 降序 排列 








有 时 ， 你 可 能 希望 得 到 DataFrame 中 多 个 相关 
列 的 一 张 柱 状 图 。 例 如 : 


In [225]: data = DataFrame({'QUu1': 


In [226]: data 


Out[226]: 

QU1 QU2 QUu3 
0 工 2 工 
1 3 3 5 
2 4 1 2 
3 3 2 4 
4 4 3 4 


将 pandas.value_counts 传 给 该 DataFrame 的 apply 


In [227]: result = data.apply(pd.value_ counts).fillna(o0) 


In [228]: result 


Out[228]: 

QU1 QU2 QU3 
1 1 1 1 
2 0 2 1 
3 2 2 0 
4 2 0 2 
5 0 0 1 


处 理 缺 失 数 据 


缺失 数据 (missing data) 在 大 部 分 数据 分 析 应 
用 中 都 很 常见 。pandas 的 设计 目标 之 一 束 是 让 缺失 
数据 的 处 理 任务 尽量 轻松 。 例 如 ，pandas 对 象 上 的 
所 有 质 述 统计 都 排除 了 缺失 数据 ， 正 如 我 们 在 本 章 
稍 早 的 地 方 所 看 到 的 那样 。 


pandas 使 用 浮 点 值 NaN (NotaNumber) 表示 
浮 点 和 非 浮 点 数组 中 的 缺失 数据 。 它 只 是 一 个 便于 
被 检测 出 来 的 标记 而 已 : 


In [229]: string_data = Series(['aardvark', ‘'artichoke', np.na 
In [230]: string_data In [231]: string_data.isnull() 
Out[230 1] : Out[231] : 

0 aardvark 0 False 

1 artichoke 1 False 

2 NaN 2 True 

3 avocado 3 False 


Python 内 置 的 None 值 也 会 被 当做 NA 处 理 : 


In [232]: string_data[0] = None 


In [233]: string_data.isnull() 
Out[233]: 

0 True 

1 False 
2 True 
3 False 


我 不 敢 说 pandas 的 NA 表现 形式 是 最 优 的 ， 但 它 
确实 很 简单 也 很 可 靠 。 由 于 NumPy 的 数据 类 型 体系 
中 缺乏 真正 的 NA 数据 类 型 或 位 模式 ， 所 以 它 是 我 
能 想到 的 最 佳 解决 方 采 (一 套 简 日 的 API 以 及 足够 
全 面 的 性 能 特征 ) 。 随 着 NumPy 的 不 断 发 展 ， 这 个 
问题 今后 可 能 会 及 生变 化 。 


表 5-12: NA 处 理 方 法 





末 法 说 明 

dropna 根据 各 标签 的 值 中 是 否 存 在 缺失 数据 对 轴 标 签 进行 过 滤 ， 可 通过 阅 值 调节 
对 缺失 值 的 容忍 度 

fillna 用 指定 值 或 插值 方法 (如 ffill 或 bfill) 填充 缺失 数据 

isnull 返回 一 个 含有 布尔 值 的 对 象 ， 这 些 布 尔 值 表 示 哪 些 值 是 缺失 值 /NA， 该 对 
象 的 类 型 与 源 类 型 一 样 

notnull isnull 的 否定 式 





小 际 缺 失 数 据 


过 滤 掉 缺失 数据 的 办 法 有 很 多 种 。 纯 手工 操作 
永远 都 是 一 个 办 法 ， 但 dropna 可 能 会 更 实用 一 些 。 
对 于 一 个 Series，dropna 返 回 一 个 仅 含 非 空 数 据 和 索 
引 值 的 Series: 


In [234]: from numpy import nan as NA 





In [235]: data = Series([1, NA, 3.5, NA, 7]) 


In [236]: data.dropnal( ) 
Out[236 1] : 
0 1.0 
2 3.5 


4 7.0 


当然 ， 也 可 以 通过 布尔 型 索引 达到 这 个 目的 : 


In [237]: data[data.notnull( )] 


Out[237] : 
0 1.0 
2 3.5 
4 7.0 





而 对 于 DataFrame 对 象 ， 事 情 束 有 点 复杂 了 了。 
你 可 能 希望 于 弃 全 NA 或 含有 NA 的 行 或 列 。dropna 
默认 丢弃 任何 含有 缺失 值 的 行 : 


In [238]: data = DataFrame([[1., 6.5, 3.], [i1i., NA, NA], 
a [NA, NA, NA], [NA, 6.5, 3.]]) 





In [239]: cleaned = data.dropna( ) 


In [240]: data In [241]: cleaned 
Out[240]: Out[241]: 
0 1 2 0 1 2 
0 1 6.5 3 0 1 6.5 3 
1 1 NaN NaN 
2 NaN NaN NaN 
3 NaN 6.5 3 


传 入 how='all' 将 只 丢弃 全 为 NA 的 那些 行 : 


In [242]: data.dropna(how='all') 
Out [242 ] : 


要 用 这 种 方式 丢弃 列 ， 只 需 传 入 axis=1 即 可 : 


In [243]: data[4] = NA 


In [244]: data In [245]: data.dropna(axis=1, how="a 
Out[2441]: Out[245]: 
0 1 2 4 0 1 2 
0 1 6.5 3 NaN 0 1 6.5 3 
下 1 NaN NaN NaN 1 1 NaN NaN 
2 NaN NaN NaN NaN 2 NaN NaN NaN 
3 NaN 6.5 3 NaN 3 NaN 6.5 3 


另 一 个 滤 除 DataFrame 行 的 问题 涉及 时 间 序 列 
数据 。 假 设 你 只 想 留 下 一 部 分 观测 数据 ， 可 以 用 
thresh 人 参数 实现 此 目的 : 


In [246]: df = DataFrame(np.random.randn(7, 3)) 
In [247]: df.ix[:4, 1] = NA; df.ix[:2, 2] = NA 


In [248]: df In [249]: df.dropna(th 
Out[248 ] : Out[249 ] : 
0 1 2 0 1 


.577087 NaN NaN 5 0.332883 -2.359419 
.523772 NaN NaN 6-1.541996 -0.970736 
.713544 NaN NaN 
.860761 NaN 0.560145 
.265934 NaN -1.063512 
.332883 -2.359419 -0.199543 
.541996 -0.970736 -1.307030 


址 序 缺 失 数 据 


你 可 能 不 想 小 除 缺 失 数 据 (有 可 能 会 丢弃 跟 它 
有 关 的 其 他 数据 ，， 而 是 希望 通过 其 他 方式 填补 那 
些 “ 空 洞 ”。 对 于 大 多 数 情况 而 言 ，fillna 方 法 是 最 主 
要 的 函数 。 通 过 一 个 常数 调用 人 Ina 就 会 将 缺失 值 巷 
换 为 那个 常数 值 : 


DO 各 
POPPOOO 





In [250]: df.fiLIIna(0) 


Out[250]: 

0 1 2 
9 -0.577087 0.000000 0.000000 
1 0.523772 0.000000 0.000000 
2 -0.713544 0.000000 0.000000 
3 -1.860761 0.000000 0.560145 
4 -1.265934 0.000000 -1.063512 
5 0.332883 -2.359419 -0.199543 
6 -1.541996 -0.970736 -1.307030 


和 在 是 通过 一 个 字典 调用 fillna， 束 可 以 实现 对 不 
同 的 列 填充 不 同 的 值 : 


In [251]: df.filina({1i: 0.5, 3: -1}) 


Out[251]: 

0 工 2 
0 -0.577087 0.500000 NaN 
1 0.523772 0.500000 NaN 
2 -0.713544 0.500000 NaN 
3 -1.860761 0.500000 0.560145 
4 -1.265934 0.500000 -1.063512 
5 0.332883 -2.359419 -0.199543 
6 -1.541996 -0.970736 -1.307030 


fillna 默 认 会 返回 新 对 象 ， 但 也 可 以 对 现 有 对 象 
进行 就 地 修改 : 


# 总 是 返回 被 项 序 对 象 的 引用 


In [252]: _ = df.fillna(0，inplace=True) 
In [253]: df 
Out[253] : 
0 工 2 
0 -0.577087 0.000000 0.000000 
1 0.523772 0 .000000 0 .000000 
2 -0.713544 0.000000 0.000000 
3 -1.860761 0.000000 0.560145 
4 -1.265934 0.000000 -1.063512 
5 0.332883 -2.359419 -0.199543 


6 -1.541996 -OQ.970736 -1.307030 


对 reindex 有 效 的 那些 插值 方法 也 可 用 于 fillnat: 
In [254]: df = DataFrame(np.random.randn(6, 3)) 
In [255]: df.ix[2:, 1] = NA; df.ix[4:, 2] = NA 


In [256]: df 


Out[256]: 

0 1 
0 0.286350 0.377984 -0.753887 
1 0.331286 1.349742 0.069877 
2 0.246674 NaN 1.004812 
3 1.327195 NaN -1.549106 
4 0.022185 NaN NaN 
5 0.862580 NaN NaN 


In [257]: df.fillna(method="'ffill') In [258]: df.fillna(methc 


Out[257]: Out[258 ] : 
0 工 2 0 

0 0.286350 0.377984 -0.753887 0 0.286350 0.3779 
1 0.331286 1.349742 0.069877 1 0.331286 1.3497 
2 0.246674 1.349742 1.004812 2 0.246674 1.3497 
3 1.327195 1.349742 -1.549106 3 1.327195 1.3497 
4 0.022185 1.349742 -1.549106 4 0.022185 \ 
5 0.862580 1.349742 -1.549106 5 0.862580 \ 


只 要 稍微 动 动脑 子 ， 你 就 可 以 利用 多 ina 实现 许 
多 别 的 功能 。 比 如 说 ， 你 可 以 传 入 Series 的 平均 值 
或 中 位 数 ; 


In [259]: data = Series([1., NA, 3.5, NA, 7]) 


In [260]: data.fillna(data.mean()) 
Out[260]: 

0 1.000000 

1 3.833333 

2 3.500000 

3 3.833333 


4 7.000000 


表 5-13 列 出 了 fllna 的 参数 参考 。 


表 5-13: fillna 函 数 的 参数 





参数 说 明 
value 用 于 填充 缺失 值 的 标量 值 或 字典 对 象 


method 插值 方式 。 如 果 函 数 调用 时 未 指定 其 他 参数 的 话 ， 默 认为 “ffil 





表 5-13: fillna 函 数 的 参数 ( 续 ) 


参数 说 明 
axis 待 填充 的 轴 ， 默 认 axis=0 


inplace 修改 调用 者 对 象 而 不 产生 副本 
limit (对 于 前 向 和 后 向 填充 ) 可 以 连续 填充 的 最 大 数量 





层次 化 索引 


层次 化 索引 (hierarchical indexing) 是 pandas 的 
一 项 重要 功能 ， 它 使 你 能 在 一 个 轴 上 拥有 多 个 《两 
个 以 上 ) 索引 级 别 。 抽 象 扣 说 ， 扎 便 你 能 以 低 维 度 
形式 处 理 蜗 维度 数据 。 我 们 先 来 看 一 个 简单 的 例 
子 : 创建 一 个 Series， 并 用 一 个 由 列表 或 数组 组 成 
的 列表 作为 索引 。 
In data = Series(np.random. 


index=[['a 'a', 'a', 'b', 'b', 'b' 
[1, 2, > ‘1, 2，3， 1 ， 2，2， 3]] 








In [262]: data 
Out[262]: 

a 1 0.670216 
0.852965 
-0.955869 
-0.023493 
-2.304234 
-0.652469 
-1.218302 
-1.332610 
1.074623 
0.723642 


这 了 就 是 市 有 MultiIndex 索 引 的 Series 的 格式 化 输 
索引 之 间 的 “ 间 隅 ”表示 “直接 使 用 上 面 的 
示 答 


b 


C 


d 


ODODPONODPOD 








In [263]: data.index 
Out[263]: 
MultiIndex 


[('a, 1)('a, 2)(a, 3)(b,1)(b, 2)(b,3)(c,1 


对 于 一 个 层次 化 索引 的 对 象 ， 选 取 数 据 子 集 的 
操作 很 简单 : 


In [264]: data['b'] 
Out[264]: 

1 -0.023493 

2 -2.304234 

3 -0.652469 





In [265]: data['b':'c'] In [266]: data.ix[['b', ' 
Out[265]: Out[266]: 
b 1 -0.023493 b 1 -0.023493 
2 -2.304234 2 -2.304234 
3 -0.652469 3 -0.652469 
c 1 -1.218302 d 2 1.074623 
2 -1.332610 3 0.723642 


有 时 甚至 还 可 以 在 “内 层 * 中 进行 选取 ;: 


In [267]: data[:, 2] 


Out[267]: 

a 0.852965 
b -2.304234 
C -1.332610 
d 1.074623 





层次 化 索引 在 数据 重 塑 和 基于 分 组 的 操作 (如 
透视 表 生 成 ) 中 扮 泗 着 重要 的 角色 。 比 如 说 ， 这 段 
数据 可 以 通过 其 unstack 方 法 被 重新 安排 到 一 个 
DataFrame 中 : 











In [268]: data.unstack() 
Out[268 ] : 

1 2 3 
a 0.670216 0.852965 -0.955869 


引 


b -0.023493 -2.304234 


C -1.218302 -1.332610 
74623 0.723642 


d N 


aN 1.0 


-0.652469 


NaN 


unstack 的 逆 运 算是 stack: 


stack 和 unstack 将 在 第 


对 于 一 个 DataFrame,， 


In [269]: 
Out[269 ] : 
a 1 0. 
2 0 
3 -0 
b 1 -0 
2 -2 
3 -0 
C 1 -1 
2 -1 
d 2 1 
3 0 
In [270]: 
In [271]: 
Out[271]: 
Ohio 
Green 
a 工 0 
2 3 
b 1 6 
2 9 


data.unstack().stack() 


670216 
,852965 
,955869 
,023493 
.304234 
,652469 
,218302 
,332610 
,074623 
.723642 


frame = 


frame 


Red 


10 


和 7 章 中 详细 讲解 。 
每 条 轴 都 可 以 有 分 层 索 


DataFrame(np.arange(12).reshape((4, 3)), 
'b', 'b'], [1, 2 


Colorado 
Green 

2 

5 

8 

11 


index=[['a', 'a', 
columns=[['Ohio', 
['Green', 


'Ohio', 
'Red', 


'Colorad 
"Green ' | 


各 层 都 可 以 有 名 字 【〈 了 可 以 是 字符 串 ， 也 可 以 是 
别 的 Python 对 象 ) 。 如 果 指 定 了 名 称 ， 它 们 就 会 显 
示 在 控制 台 输 出 中 (不 要 将 索引 名 称 跟 轴 标签 混 为 


= 类: ) : 








In [272]: frame.index.names = ['key1', 'key2'|] 
In [273]: frame.columns.names = ['state', 'color'] 


In [274]: frame 


Out[274] : 

State Ohio Colorado 

color Green Red Green 

key1 key2 

a 1 (©) 1 2 
2 3 4 5 

b 1 6 7 8 
2 9 10 11 


由 于 有 了 分 部 的 列 索引 ， 因 此 可 以 轻松 选取 列 


分 组 : 


In [275]: frame['Ohio'] 


Out[275]: 

color Green Red 

key1 key2 

a 业 0 1 
2 3 4 

b 1 6 7 
2 9 0 


1 


可 以 单独 创建 MultiIndex 然 后 复 用 。 上 面 那 个 
DataFrame 中 的 《分 级 的 ) 列 可 以 这 样 创 建 : 


MultiIndex.from arrays([['Ohio', 'Ohio', 'Colorado'], ['Green' 


重 排 分 级 顺序 


有 时 ， 你 需要 重新 调整 茶 条 轴 上 各 级 别 的 顺 
序 ， 或 根据 指定 级 询 上 的 值 对 数据 进行 排序 。 
swaplevel 接 受 两 个 级 别 编号 或 名 称 ， 并 返回 一 个 互 
换 了 级 别 的 新 对 象 〈 但 数据 不 会 上 友 生 变化 ) : 


In [276]: frame.swaplevel('key1', 


Out[276]: 

state Ohio Colorado 
color Green Red Green 
key2 key1 

1 a © 1 2 
2 a 3 4 5 
1 b 6 7 8 
2 b 9 10 11 


"key2") 


而 sortlevel 则 根据 单个 级 别 中 的 值 对 数据 进行 
排序 (稳定 的 ) 。 交 换 级 别 时 ， 篆 背 也 会 用 到 





sortlevel， 这 样 最 终结 


In [277]: frame.sortlevel(1) 


Out[277]: 

state Ohio Colorado 
color Green Red Green 
key1 key2 

a 1 © 1 2 
b 1 6 7 8 
a 2 3 4 5 
b 2 9 10 11 


VN 
症 导 : 


束 是 有 序 的 了 : 


In [278]: frame.swaplevel 


Out[278]: 
state Ohio Co 
color Green Red 
key2 key1 
1 a © 1 

b 6 7 
2 a 3 4 

b 9 10 


在 层次 化 索引 的 对 象 上 ， 如 果 索 引 是 按 





字典 方式 从 外 到 内 排序 〈 即 调用 sortlevel(0) 或 
sort_index() 的 结果 〉 ， 数 据 选取 操作 的 性 能 要 好 很 


多 。 
根据 级 列 拒 总 统计 


许多 对 DataFrame 和 Series 的 描述 和 汇总 统计 都 
有 一 个 level 选 项 ， 它 用 于 指定 在 某 条 轴 上 求 和 的 级 
别 。 再 以 上 面 那个 DataFrame 为 例 ， 我 们 可 以 根据 
行 或 列 上 的 级 别 来 进行 求 和 和， 如 下 所 示 : 


In [279]: frame.sum(level='key2') 


Out[279 1] : 

State Ohio Colorado 
color Green Red Green 
key2 

1 6 8 10 
2 12 14 16 


In [280]: frame.sum(level='color', axis=1) 


Out[280]: 

color Green Red 

key1 key2 

a 1 2 1 
2 8 4 

b 1 14 7 
2 20 10 


这 其 实 是 利用 了 pandas 的 groupby 功 能 ， 本 书 稍 
后 将 对 其 进行 详细 讲解 。 


使 用 DataFrame 的 列 


人 们 经 常 想 要 将 DataFrame 的 一 个 或 多 个 列 当 








做 行 索引 来 用 ， 或 者 可 能 硕 望 将 行 索引 变 成 
DataFrame 的 列 。 以 下 面 这 个 DataFrame 为 例 : 
In [281]: frame = DataFrame({'a': range(7), 'b': range(7, 0, - 
ee 'c': ['one', 'one', 'one', 'two', 
'd': [0, 1, 2, 0, 1, 2, 3]}) 


In [282]: frame 


Out[282]: 

a b c d 
© © 7 one 0 
1 1 6 one 1 
2 2 5 one 2 
3 3 4 two 0 
4 4 3 two 1 
5 5 2 two 2 
6 6 1 two 3 


DataFrame 的 set_ index 国 数 会 将 其 一 个 或 多 个 
列 转 换 为 行 索引 ， 并 创建 一 个 新 的 DataFrame: 


In [284]: frame2 


Out[284] : 
a b 
C d 
one © 0 7 
1 1 6 
2 2 5 
two © 3 4 
1 4 3 
2 ,S57 记 
3 6 1 


默认 情况 下 ， 那 些 列 会 从 DataFrame 中 移 除 ， 
但 也 可 以 将 其 保留 下 来 : 


In [285]: frame.set_index(['c', 'd'], drop=False) 
Out[285] : 

a b c d 
C 


two 
two 
two 
two 


two 


OPONDPOC 
ORPOONOPO 
POO 
OODPONDPO 


reset_index 的 功能 跟 set_index 刚 好 相反 ， 层 次 
化 过 引 的 级 别 会 被 转移 到 列 里 面 : 


In [286]: frame2.reset_index() 


Out[286]: 

Cd a b 
© one 0 0 7 
1 one 1 1 6 
2 one 2 2 5 
3 two © 3 4 
4 two 1 4 3 
5 two 2 5 2 
6 two 3 6 1 


其 他 有 关 pandas 的 话题 


这 里 是 男 外 一 些 可 能 在 你 的 数据 旅程 中 用 得 着 
的 有 关 pandas 的 话题 。 


整数 系 引 


操作 由 整数 索引 的 pandas 对 象 常 常会 让 新 手 抓 
狂 ， 因 为 它们 跟 内 置 的 Python 数据 结构 〈 如 列表 和 
元 组 ) 在 索引 语义 上 有 些 不 同 。 例 如 ， 你 可 能 认为 
下 面 这 段 代 人 码 不 会 产生 一 个 错误 : 


ser = Series(np.arange(3.)) 
ser[-1] 


在 这 种 情况 下 ， 虽 然 pandas 会 “求助 于 ”整数 索 
引 ， 但 没有 哪 种 方法 至少 我 就 不 知道 ) 能够 既 不 
引入 任何 bug 又 安全 有 效 地 解决 该 问题 。 这 里 ， 我 
们 有 一 个 舍 有 0、1、2 的 索引 ， 但 是 很 难 推 呆 出 用 
户 想 要 什么 《基于 标签 或 位 置 的 索引 ) : 








In [288]: ser 
Out[288 ] : 
0 
1 1 
2 2 


相反 ， 对 于 一 个 非 整 数 双 引 ， 就 没有 这 样 的 皮 


In [289]: ser2 = Series(np.arange(3.), index=['a', 'b', 'c']) 


In [290]: ser2[-1] 
Out[290]: 2.0 


为 了 保持 民 好 的 一 致 性 ， 如 条 你 的 轴 索 引 含有 
索引 右 ， 那 么 根据 整数 进行 数据 选取 的 操作 将 总 是 
面 癌 标签 的 。 这 也 包括 用 这 进行 切 睫 : 


In [291]: ser.ix[:1] 





Out[291]: 
0 0 
,| 


如 果 你 需要 可 靠 的 、 不 考虑 索引 类 型 的 、 基 于 
位 置 的 索引 ， 可 以 使 用 Series 的 iget_value 方 法 和 
DataFrame 的 irow 和 icol] 方 法 : 


In [292]: ser3 = Series(range(3), index=[-5, 1, 3]) 


In [293]: ser3.iget_value(2) 
Out[293]: 2 


In [294]: frame = DataFrame(np.arange(6).reshape(3, 2), index= 
In [295]: frame.irow(0) 

Out[295]: 

0 0 

1 1 

Name: 2 


面板 数据 





pandas 有 一 个 Panel 数 据 结构 (不 是 本 书 的 主要 
内 容 ) ， 你 可 以 将 其 看 做 一 个 三 维 版 的 
DataFrame。pandas 的 大 部 分 开发 工作 都 集中 在 表格 
型 数据 的 操作 上 ， 因 为 这 些 数据 更 常见 ， 而 且 层次 
人 导 多 数 情 况 下 没 必要 使 用 真正 的 N 维 数 
组 。 





你 可 以 用 一 个 由 DataFrame 对 象 组 成 的 字典 或 
三 a 建 Panel 对 象 : 


import pandas.io.data as web 


pdata = pd.Panel(dict((stk, web.get_data yahoo(stk, '1/1/2009' 
for stk in ['AAPL', 'G00G', 'MSFT', 'DE 


Panel 中 的 每 一 项 (类 似 于 DataFrame 的 列 〉 痢 


是 一 个 DataFrame: 


In [297]: pdata 

Out[297]: 

<class 'pandas.core.panel.Panel'> 

Dimensions: 4 (items) x 861 (major) x 6 (minor) 

Items: AAPL to MSFT 

Major axis: 2009-01-02 00:00:00 to 2012-06-01 00:00:00 
Minor axis: Open to Adj Close 


In [298]: pdata = pdata.swapaxes('items', 'minor') 

In [299]: pdata[ 'Adj Close'] 

Out[299]: 

<class 'pandas.core.frame.DataFrame'> 

DatetimeIndex: 861 entries, 2009-01-02 00:00:00 to 2012-06-01 
Data columns: 

AAPL 861 non-null values 

DELL 861 non-null values 

GOOG 861 non-null values 


MSFT 86 
dtypes: 千 ] 


1 non-null values 


oat64(4) 


基于 这 的 标签 索引 被 推广 到 了 三 个 维度 ， 因 此 
我 们 可 以 选取 指定 日 期 或 日 期 范围 的 所有 数据 ， 如 


平 所 未 : 


In [300]: pdata.ix[:, 


Out[300]: 
Op 
AAPL 569. 
DELL 2 
GOOG 571. 
MSFT 28 ， 


In [301] : 
Out[301]: 


Date 

2012-05-22 
2012-05-23 
2012-05-24 
2012-05-25 
2012-05-29 
2012-05-30 
2012-05-31 
2012-06-01 


en Hi 
16 572. 
15 过 
79 572. 
76 28 ， 


gh 

65 560 
30 12 
65 568 
96 28 


Low Close 


"6/1/72012", :1] 


Volume Adj Close 


.52 560.99 18606700 560.99 
, 05 12.07 19396700 12.07 
.35 570.98 3057900 570.98 
.44 28.45 56634300 28 .45 


pdata.ix['Adj Close '， 


AAPL 


556 .97 
570.56 
565.32 
562.29 
572.27 
579.17 
577.73 
560.99 


DELL 


'5/22/2012':;,， :|] 


GOOG MSFT 


600.80 29.76 
609.46 29.11 
603.66 29.07 
591.53 29.06 
594.34 29.56 
588.23 29.34 
580.86 29.19 
570.98 28.45 





男 一 个 用 于 呈现 面板 数据 (尤其 是 对 拟 合 统计 
模型 ) 的 办 法 是 “ 推 积 式 的 "DataFrame 形 式 : 


In [302]: stacked = pdata.ix[:, 


In [303]: 
Out[303]: 


major 
2012-05-30 


stacked 


minor 
AAPL 
DELL 


Open 


High 


'5/30/2012':, :1].to_frame() 


Low 


Close Volume Ad 


569.20 579.99 566.56 579.17 18908200 


12.59 


12.70 


12.46 


12.56 19787800 


GOOG 
MSFT 
2012-05-31 AAPL 
DELL 
GOOG 
MSFT 
2012-06-01 AAPL 
DELL 
GOOG 
MSFT 


DataFrame 有 一 个 相应 的 to_panel 方 法 ， 


588. 
29 ， 
580 ， 
12. 
588. 
29 ， 
569 ， 
12. 
571， 
28 ， 


to_frame 的 逆 运 算 : 


In [304]: stacked.to_panel() 


Out[304]: 


<class 'pandas.core.panel.Panel'> 


16 
35 
74 
53 
72 
30 
16 
15 
79 
76 


591， 
29 ， 
581， 
12. 
590 ， 
29 ， 
572， 


12 


572， 


28 


90 
48 
50 
54 
00 
42 
65 
.30 
65 
.96 


583， 
29 ， 
571， 
12. 
579 ， 
28 ， 
560 ， 
.05 
568. 
28. 


12 


53 
12 
46 
33 
00 
94 
52 


35 
44 


588 ， 
29 ， 
577， 
12. 
580 ， 
29 ， 
560 ， 
12. 
570， 
28 ， 


Dimensions: 6 (items) x 3 (major) x 4 (minor) 
Items: Open to Adj Close 
Major axis: 2012-05-30 00:00:00 to 2012-06-01 00:00:00 
Minor axis: AAPL to MSFT 


23 
34 
73 
33 
86 
19 
99 
07 
98 
45 


1906700 
41585500 
17559800 
19955500 

2968300 
39134000 
18606700 
19396700 

3057900 
56634300 


它 是 


第 6 草 ” 数 据 加 载 、 存 储 与 文件 格式 


如 果 不 能 将 数据 导入 导出 Python， 本 书 所 介绍 
的 这 些 工具 就 没什么 大 用 。 我 打算 着 重 介 绍 pandas 
的 输入 输出 对 象 ， 虽 然 别 的 库 中 也 有 不 少 以 此 为 目 
的 的 工具 。 例 如 ，NumpPy 提 供 了 一 个 低级 但 异常 高 
效 的 二 进 制 数据 加 载 和 存储 机 制 ， 包 括 对 内 存 映 射 
数组 的 文 持 等 。 详 细 内 容 请 参阅 第 12 章 。 


输入 输出 通 钊 可 以 划分 为 几 个 大 关 : 读 取 文本 


文件 和 其 他 更 局 效 的 磁盘 存储 格式 ， 加 载 数据 库 中 
的 数据 ， 利 用 Web API 操 作 网 络 资源 。 


读 写 文本 格式 的 数据 


因为 其 简单 的 文件 交互 语法 、 直 观 的 数据 结 
构 ， 以 及 诸如 元 组 打包 解 包 之 类 的 便利 功能 ， 
Python 在 文本 和 文件 处 理 方面 已 经 成 为 一 门 招 人 襄 
欢 的 语言 。 

pandas 提 供 了 一 些 用 于 将 表格 型 数据 读 取 为 
DataFrame 对 象 的 函数 。 表 6-1 对 它们 进行 了 总 结 ， 
其 中 read_csv 和 read_table 可 能 会 是 你 今后 用 得 最 多 


的 。 


表 6-1: pandas 中 的 解析 函数 











函数 说 明 

read_csv 从 文件 、URL、 文 件 型 对 象 中 加 载 带 分 隔 符 的 数据 。 默 认 分 隔 符 为 逗号 

read_table 从 文件 、URL、 文 件 型 对 象 中 加 载 带 分 隔 符 的 数据 。 默 认 分 隔 符 为 制 
表 符 (“\t”) 

read_fwf 读 取 定 宽 列 格式 数据 (也 就 是 说 ,没有 分 隔 符 ) 

read_clipboard 读 取 剪贴 板 中 的 数据 ， 可 以 看 做 read_table 的 剪贴 板 版 。 在 将 网 页 转换 
为 表格 时 很 有 用 





我 将 大 致 介绍 一 下 这 些 函 数 在 将 文本 数据 转换 
为 DataFrame 时 所 用 到 的 一 些 技术 。 这 些 函 数 的 选 
项 可 以 划分 为 以 下 几 个 大 类 : 


索引: 将 一 个 或 多 个 列 当做 返回 的 DataFrame 





处 理 ， 以 及 是 售 从 文件 、 用 户 获取 列 名 。 


-类 型 推 关 和 数据 转换 : 包括 用 户 定义 值 的 转 
换 、 缺 失 值 标记 列表 等 。 


“日 期 解析 : 包括 组 合 功 能 ， 比 如 将 分 散在 多 
个 列 中 的 日 期 时 间 信 息 组 合成 结果 中 的 单个 列 。 


. 迄 代 : 支持 对 大 文件 进行 逐 块 先 代 。 


不 规整 数据 问题 ， 跳 过 一 些 行 、 页 脚 、 注 释 
或 其 他 一 些 不 重要 的 东西 (比如 由 成 千 上 万 个 辟 号 
隔 开 的 数值 数据 ) 。 


类 型 推 新 〈type inference) 是 这 些 函 数 中 最 重 
要 的 功能 之 一 ， 也 束 是 说 ， 你 不 需要 指定 列 的 类 型 
到 底 是 数值 、 整 数 、 布 尔 值 ， 还 是 字符 串 。 日 期 和 
其 他 上 自 定义 类 型 的 处 理 需 要 多 花 点 工夫 才 行 。 首 先 
我 们 来 看 一 个 以 辟 号 分 隅 的 (CSV) 文本 文件 : 


n [846]: !cat chg6/ex1,csv 1! 














846 
c,d 
3,4,hello 
7,8 
1 


由 于 该 文件 以 逗 亏 分 隔 ， 所 以 我 们 可 以 使 用 


read_csv 将 其 该 入 一 个 DataFrame: 


In [847]: df = pd,read_csv( "ch06/ex1.csv  ) 


In [848]: df 


Out[848]: 

a b CE d message 
© 1 2 3 4 hello 
1 5 6 7 8 world 
2 9 10 11 12 foo 


我 们 也 可 以 用 read_table， 只 不 过 需要 指定 分 隔 
从 而 已 : 


In [849]: pd.read table('cho6/exi.csv', sep="',"') 
Out[849]: 


a b C d message 
© 1 2 3 4 hello 
i 5 6 7 8 world 
2 9 10 11 12 foo 





注意 : 这 里 我 用 的 是 cat 这 个 UNIX shell 命 令 将 
文本 的 原始 内 容 打 印 到 屏幕 上 。 如 果 你 用 的 是 
Windows， 则 可 以 使 用 type 来 达到 同样 的 目的 。 


并 不 是 所 有 文件 都 有 标题 行 。 看 看 下 面 这 个 








‘rs 


In [850]: !cat chO6/ex2.csv 
1,2,3,4,hello 

5,6,7,8,world 
9,10, 11, 12, foo 


读 入 该 文件 的 办 法 有 两 个 。 你 可 以 让 pandas 为 
其 分 配 默 认 的 列 名 ， 也 可 以 目 己 定义 列 名 : 


In [851]: pd.read_csv( "ch06/ex2.csv'，header=None ) 


Out[851] : 

X.1 X.2 X.3 X.4 X.5 
0 1 2 3 4 hello 
1 5 6 7 8 world 
2 9 10 11 12 foo 


In [852]: pd.read csv('cho6/ex2.csv', names=['a’', 'b', 'c', 
Out[852] : 
a b C d message 
90 1 2 3 4 hello 
5 6 7 8 world 
2 9 10 11 12 foo 


假设 你 希望 将 message 列 做 成 DataFrame 的 过 
引 。 你 可 以 明确 表示 要 将 该 列 放 到 索引 4 的 位 置 
上 ， 也 可 以 通过 index_col 参 数 指定 "message": 


In [853]: names = ['a', 'b', 'c', 'd', 'message'| 


In [854]: pd.read csv('ch06/ex2.csv', names=names, index_col=" 
Out[8541]: 

a b C d 
message 
hello 1 2 3 4 
world 5 6 7 8 
foo 9 10 11 12 


如 果 希 望 将 多 个 列 做 成 一 个 层次 化 索引 ， 只 需 
传 入 由 列 编号 或 列 名 组 成 的 列表 即 可 : 


In [855]: !cat chO6/csv_mindex.csv 
key1, key2,valuel1, value2 

one,a,1,2 

one,b,3,4 

one,c,5,6 

one,d,7,8 

two,a,9,10 

two, b, 11, 12 

two, c,13,14 





two, d, 15, 16 


In [856]: parsed = pd.read csv('chQO6/csv mindex.csv', index_co 
In [857]: parsed 


Out[857]: 
valuel1 value2 

key1 key2 
one a 1 2 
b 3 4 
C 5 6 
d 7 8 
two a 9 10 
b 11 12 
C 13 14 
d 15 16 





有 些 表 格 可 能 个 是 用 固定 的 分 隅 符 去 分 隐 字 段 
的 《比如 空白 符 或 其 他 模式 "*“) 。 对 于 这 种 情 
况 ， 可 以 编写 一 个 正则 表达 式 来 作为 read_table 的 分 
陋 符 。 看 看 下 面 这 个 文本 文件 : 
In [858]: list(open('cho6/ex3.txt'")) 


out[858]: 
[ 【了 








A B CNn'， 
'aaa -0.264438 -1.026059 -0.619500\n' 
'bbb 0.927272 0.302904 -0.032399\n' 
"ccc -0.264273 -0.386314 -0.217601\n' 
'ddd -0.871858 -0.348382 1.100491\n' 


该 文件 各 个 字段 由 数量 不 定 的 空白 符 分 隔 ， 虽 
然 你 可 以 对 其 做 一 些 手工 调整 ， 但 这 个 情况 还 是 处 
理 比较 好 。 本 例 的 这 个 情况 可 以 用 正则 表达 式 \s+ 表 
示 ， 于 古 我 们 残 有 了 : 


In [859]: result = pd.read _ table('cho6/ex3.txt', sep='\s+') 


L_| 、 ~ ~ ~ 











In [860]: result 


Out[860]: 

A B 
aaa -0.264438 -1.026059 -0.619500 
bbb 0.927272 0.302904 -0.032399 
ccc -0.264273 -0.386314 -0.217601 
ddd -0.871858 -0.348382 1.100491 


这 里 ， 由 于 列 名 比 数据 行 的 数量 少 下 3， 所 以 
read_table 推 断 第 一 列 应 该 是 DataFrame 的 索引 。 


这 些 解析 妖 疯 数 还 有 许多 参数 可 以 帮助 你 处 理 
各 种 各 样 的 异形 文件 格式 《参见 表 6-2) 。 比 如 
说 ， 你 可 以 用 skiprows 跳 过 文件 的 第 一 行 、 第 三 行 
和 第 四 行 : 


In [861]: !cat chO6/ex4.csv 

# hey! 

a,b,c,d,message 

# just wanted to make things more difficult for you 

# who reads CSV files with computers, anyway? 
1,2,3,4,hello 

5,6,7,8,world 

9,10, 11, 12, foo 

In [862]: pd.read csv('cho6/ex4.csv', skiprows=[0, 2, 3]) 


Out[862]: 

a b C d message 
© 1 2 3 4 hello 
1 5 6 7 8 world 
2 9 10 11 12 foo 


缺失 值 处 理 是 文件 解析 任务 中 的 一 个 重要 组 成 
部 分 。 缺 失 数 据 经 前 是 要 么 没有 【 空 字 符 串 ) ， 要 
么 用 某 个 标记 值 表示 。 默 认 情 况 下 ，pandas 会 用 一 
组 经 浓 出 现 的 标记 值 进 行 识 别 ， 如 NA、-L1. 帮 ND 以 
及 NULL 等 : 





In [863]: !cat ch0O6/ex5.csv 
something,a,b,c,d,message 

one, 1,2,3,4,NA 

two,5,6,,8,world 

three, 9,10,11,12,foo 

In [864]: result = pd.read csv('ch06/ex5.csv') 


In [865]: result 


Out[865]: 

something a b C d message 
0 one 1 2 3 4 NaN 
1 two 5 6 NaN 8 world 
2 three 9 10 11 12 foo 
In [866]: pd.isnull(result) 
Out[866]: 

something a b C d message 
0 False False False False False True 
1 False False False True False False 
2 False False False False False False 


na_values 可 以 接受 一 组 用 于 表示 缺失 值 的 字符 


In [867]: result = pd.read_csv( 'ch06/ex5.csv ' ，na_values=[ ' NUL 


In [868]: result 


Out[868]: 

something a b C d message 
0 one 1 2 3 4 NaN 
1 two 5 6 NaN 8 world 
2 three 9 10 11 12 foo 


可 以 用 一 个 字典 为 各 列 指定 不 同 的 NA 标记 
值 : 


In [869]: sentinels = {'message': ['foo', 'NA'], 'something": 


In [870]: pd.read csv('cho6/ex5.csv', na_values=sentinels) 
Out[870]: 
something a b C d message 


0 one 1 2 3 4 NaN 
1 NaN 5 6 NaN 8 world 
2 three 9 10 11 12 NaN 
表 6-2: read_csv/read_table 函 数 的 参数 
参数 说 明 
path 表示 文件 系统 位 置 、URL、 文 件 型 对 象 的 字符 串 
sep 或 delimiter 用 于 对 行 中 各 字段 进行 拆 分 的 字符 序列 或 正则 表达 式 
header 用 作 列 名 的 行 号 。 默 认为 0 〈 第 一 行 ) ， 如 果 没 有 header 行 就 应 该 设置 
为 None 
index_col 用 作 行 索引 的 列 编号 或 列 名 。 可 以 是 单个 名 称 /数字 或 由 多 个 名 称 /数字 
tit (层次 化 索引 ) 
names 于 结果 的 列 名 列表 ， 结 合 header=None 
skiprows en 生 数 (从 文件 开始 处 算 起 ) ， 或 需要 跳 过 的 行 号 列表 (从 0 
开始 ) 
na_values 一 组 用 于 替换 NA 的 值 
comment 用 于 将 注释 信息 从 行 尾 拆 分 出 去 的 字符 (一 个 或 多 个 ) 


parse_dates 


keep_date_col 


converters 


dayfirst 


date_parser 
nrows 
iterator 
chunksize 


skip_footer 


尝试 将 数据 解析 为 日 期 ， 默 认为 False。 如 果 为 True， 则 尝试 解析 所 
有 列 。 此 外 ， 还 可 以 指定 需要 解析 的 一 组 列 号 或 列 名 。 如 果 列 表 的 元 
素 为 列表 或 元 组 ， 就 会 将 多 个 列 组 合 到 一 起 再 进行 日 期 解析 工作 ( 例 
如 ， 日期/ 时间 分 别 位 于 两 个 列 中 ) 

如 果 连 接 多 列 解 析 日 期 ， 则 保持 参与 连接 的 列 。 默 认为 False。 


由 列 号 / 列 名 跟 函 数 之 间 的 映射 关系 组 成 的 字典 。 例 如 ，f{'foo': f} 会 对 
foo 列 的 所 有 值 应 用 函数 f 


当 解 析 有 歧义 的 日 期 时 ， 将 其 看 做 国际 格式 〈 例 如 ，7/6/2012 一 June 
7, 2012) 。 默 认为 False 


用 于 解析 日 期 的 函数 

需要 读 取 的 行 数 (从 文件 开始 处 算 起 ) 
返回 一 个 TextParser 以 便 逐 块 读 取 文件 
文件 块 的 大 小 (用 于 迭代 ) 

需要 忽略 的 行 数 (从 文件 末尾 处 算 起 ) 





表 6-2: read_csv/read table 函 数 的 参数 ( 续 ) 


参数 说 明 

verbose 打印 各 种 解析 器 输出 信息 ， 比 如 “ 非 数值 列 中 缺失 值 的 数量 ”等 

encoding 用 于 unicode 的 文本 编码 格式 。 例 如 ，“utf-8” 表 示 用 UTF-8 编 码 的 
文本 

squeeze 如 果 数 据 经 解析 后 仅 含 一 列 ， 则 返回 Series 

thousands 干 分 位 分 隔 符 ， 如 “,” 或 “.” 





未 块 读 取 文本 文件 


在 处 理 很 大 的 文件 时 ， 或 找 出 大 文件 中 的 参数 
集 以 便于 后 续 处 理 时 ， 你 可 能 只 想 读 取 文件 的 一 小 
部 分 或 逐 块 对 文件 进行 达 代 。 


In [871]: result = pd.read_ csv('ch06/ex6.csv') 


In [872]: result 

Out[872]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 10000 entries, 0 to 9999 
Data columns: 


one 10000 non-null values 
two 10000 non-null values 
three 10000 non-null values 
four 10000 non-null values 
key 10000 non-null values 


dtypes: float64(4), object(1) 


如 果 只 想 读 取 几 行 ( 避 人 免 读 取 整 个 文件 ) ， 通 
过 nrows 进 行 指 定 即 可 : 
In [873]: pd.read csv('ch06/ex6.csv', Nrows=5) 


Out[873]: 
one two three four key 


© 0,467976 -0.038649 -0.295344 -1.824726 L 
1 -0.358893 1.404453 0.704965 -0.200638 B 
2 -0.501840 0.659254 -0.421691 -0.057688 G 
3 0.204886 1.074134 1.388361 -0.982404 R 
4 0.354628 -0.133116 0.283763 -0.837063 Q 
、 、 » 一 天 /一 
要 逐 块 该 取 文 件 ， 需 要 设置 chunksize 〈 行 


数 ) : 


In [874]: chunker = pd.read_csv(' cho6/ex6.csv'，chunksize=1000 


In [875]: chunker 
Out[875]: <pandas.io.parsers.TextParser at Ox8398150> 


read_csv 所 返回 的 这 个 TextParser 对 象 使 你 可 以 
根据 chunksize 对 文件 进行 逐 块 迭代 。 比 如 说 ， 我 们 
可 以 迭代 处 理 ex6.csv， 将 值 计数 聚合 到 "key" 列 中 ， 
如 下 所 示 : 


chunker = pd.read csv('ch0O6/ex6.csv', chunksize=1000) 
tot = Series([]) 
for piece in chunker: 
tot = tot.add(piece['key'|].value counts(), fill value=0) 


tot = tot.order(ascending=False) 


于 是 我 们 残 有 了 : 


In [8771]: 
Out[877]: 
368 





tot[:10] 


ZOoOmTxm 
WW 
人 
CD 


337 
335 
334 
330 


工 大 了 号 


TextParser 还 有 一 个 get_chunk 方 法 ， 它 使 你 可 
以 读 取 任意 大 小 的 块 。 


将 数据 写 出 到 文本 格式 


数据 也 可 以 被 输出 为 分 隔 符 格 式 的 文本 。 我 们 
再 来 看 看 之 前 读 过 的 一 个 CSV 文 件 : 


In [878]: data = pd.read_csv( ' cho06/ex5 .csv ' ) 








In [879]: data 


Out[879 ] : 

something a b C d message 
© one 1 2 3 4 NaN 
1 two 5 6 NaN 8 world 
2 three 9 10 11 12 foo 


利用 DataFrame 的 to_csv 方 法 ， 我 们 可 以 将 数据 
写 到 一 个 以 逗号 分 隔 的 文件 中 : 


In [880]: data.to csv('cho6/out.csv') 


In [881]: !cat cho6/out .csv 
;Something,a,b,c,d,message 
0, one, 1,2,3.0,4, 

1, two,5,6,,8,world 

2, three, 9, 10, 11.0, 12, foo 


当然 ， 还 可 以 使 用 其 他 分 隔 符 《〈 由 于 这 里 二 接 





写 出 到 sys.stdout， 所 以 仅仅 是 打印 出 文本 结 琳 而 
ED 


In [882]: data.to csv(sys.stdout, sep="|") 
|somethinglalblcldlmessage 
olone|1|2|3.0|4| 

1|two|l5|6||18|world 
2|three|9|10|11.0|12|foo 


缺失 值 在 输出 结果 中 会 被 表示 为 空 字符 串 。 你 
可 能 硕 户 将 其 表示 为 别 的 标记 值 : 
In [883]: data.to csv(sys.stdout, na_rep="'NULL') 
;Something,a,b,c,d,message 
0, one, 1,2,3.0,4,NULL 


1, two, 5,6, NULL, 8, world 
2, three, 9,10,11.0,12,foo 


如 果 没 有 设置 其 他 选项 ， 则 会 写 出 行 和 列 的 标 
签 。 当 然 ， 它 们 也 都 可 以 被 禁用 : 
In [884]: data.to csv(sys.stdout, index=False, header=False) 
one, 1,2,3.0,4, 


two,5,6,,8,world 
three, 9,10,11.0,12,foo 


此 外 ， 你 还 可 以 只 写 出 一 部 分 的 列 ， 并 以 你 指 
定 的 顺序 排列 : 


85]: data.to_csv(sys.stdout, index=False, cols=['a', 'b', 























Series 也 有 一 个 to_csv 方 法 : 


In [886]: dates = pd.date range('1/1/2000', periods=7) 
In [887]: ts = Series(np.arange(7), index=dates) 
In [888]: ts.to_ csv('choO6/tseries.csv') 


In [889]: !cat cho6/tseries.csv 
2000-01-01 00:00:00,0 
2000-01-02 00:00:00,1 
2000-01-03 00:00:00,2 
2000-01-04 00:00:00,3 
2000-01-05 00:00:00,4 
2000-01-06 00:00:00,5 
2000-01-07 00:00:00,6 


虽然 只 需 一 点 整理 工作 (无 header 行 ， 第 一 列 
作 索 引 ) 束 能 用 read_csv 将 CSV 文 件 读 取 为 Series， 
但 还 有 一 个 更 为 方便 的 from_csv 方 法 : 


In [890]: Series.from csv('cho6/tseries.csv', parse dates=True 
Out[890]: 

2000-01-01 
2000-01-02 
2000-01-03 
2000-01-04 
2000-01-05 
2000-01-06 
2000-01-07 


DO 上 上 ww 六 叫 





更 多 信息 请 在 IPython 中 但 看 to_csv 和 和 from_csv 
的 文档 。 


手工 处 理 分 隔 符 格式 


大 部 分 存储 在 磁盘 上 的 表格 型 数据 都 能 
pandas.read_table 进 行 加 载 。 然 而 ， 有 时 还 是 需要 做 
一 些 手工 处 理 。 由 于 接收 到 含有 畸形 行 的 文件 而 使 
read_table 出 毛病 的 情况 并 不 少见 。 为 了 说 明 这 些 基 
本 工具 ， 看 看 下 面 这 个 简单 的 CSV 文 件 : 


In [891]: !cat ch06/ex7 .csv 
"a ni 





C 
2 
"12" 8 4" 


对 于 任何 单子 符 分 隅 从 文件 ， 可 以 直接 使 用 


python 内置 的 csv 模 块 。 将 任意 已 打开 的 文件 或 文件 
型 的 对 象 传 给 csv.reader: 


import csv 
f = open('cho6/ex7.csv') 





reader = csv.reader(f) 
”对 这 个 reader 进 行 达 代 将 会 为 每 行 产 生 一 个 元 
组 “(并 移 除 了 所 有 的 引号 )〉: 


In [893]: for line in reader: 
ee print line 


[ a 1b' “CE” | 
[ 1， '2", '3'] 
['1', 2 '3", '4'"] 


现在 ， 为 了 使 数据 格式 合乎 要 求 ， 你 需要 对 其 





In [894]: lines = list(csv.reader(open('chO6/ex7.csv'))) | 

In [895]: header, values = lines[0], lines[1:] 

In [896]: data dict = {h: v for h, v in zip(header, zip(*value 

In [897]: data dict 

A ee :MR ae ee lh eB eS Pl Ok 

CSV 文 件 的 形式 有 很 多 。 只 需 定义 csv.Dialect 

的 一 个 子 类 即 可 定义 出 新 格式 《如 专门 的 分 隔 符 、 
字符 串 引 用 约定 、 行 结束 符 等 ) : 


class my_dialect(csv.Dialect): 





lineterminator = '\nN' 
delimiter = ';'" 
quotechar = "'"" 


reader = csv.reader(f, diaect=my_dialect) 


各 个 CSV 语 文 的 参数 也 可 以 关键 字 的 形式 提供 
给 csv.reader， 而 无 需 定 义 子 类 : 


reader = csv.reader(f, delimiter="|"') 


可 用 的 选项 (csv.Dialect 的 属性 ) 及 其 功能 如 
表 6-3 所 示 。 


表 6-3: CSV 语 支 选项 

参数 说 明 

delimiter 用 于 分 隔 字段 的 单字 符 字 符 串 。 默 认为 “， 

lineterminator 用 于 写 操作 的 行 结束 符 ， 默 认为 “\N\n”。 读 操作 将 忽略 此 选项 ， 它 能 
认 出 跨 平台 的 行 结束 符 

quotechar 用 于 带 有 特殊 字符 (如 分 隔 符 ) 的 字段 的 引用 符号 。 默 认为 “"” 

quoting 引用 约定 。 可 选 值 包括 csv.QUOTE_ALL (引用 所 有 字段 ) 、csv. 
QUOTE_MINIMAL (只 引用 市 有 诸如 分 隔 符 之 类 特殊 字符 的 字段 )、 
CsV.QUOTE_NONNUMERIC 以 及 csv.QUOTE_NON (不 引用 ) 。 完 整 信 息 
请 参考 Python 的 文档 。 默 认为 QUOTE_MINIMAL 

skipinitialspace 忽略 分 隔 符 后 面 的 空白 符 。 默 认为 False 

doublequote “如 何 处 理 字段 内 的 引用 符号 。 如 果 为 True， 则 双 写 。 完 整 信息 及 行为 
请 参见 在 线 文档 

escapechar 用 于 对 分 隔 符 进行 转 义 的 字符 串 (如 果 quoting 被 设置 为 csv.QUOTE_ 
NONE 的 话 ) 。 上 默认 禁用 

















注意 : 对 于 那些 使 用 复杂 分 隅 从 或 多 字符 分 隔 
符 的 文件 ，csv 模 块 束 无能为力 了 。 这 种 情况 下 ， 
你 就 只 能 使 用 字符 串 的 split 方 法 或 正则 表达 式 方法 
re.split 进 行 行 拆 分 和 其 他 整理 工作 了 。 


要 手工 输出 分 隔 符 文件 ， 你 可 以 使 用 
csV.wWriter。 它 接受 一 个 已 打开 且 可 写 的 文件 对 象 以 
及 跟 csv.reader 相 同 的 那些 语文 和 格式 化 选项 : 


with open('mydata.csv', 'w') as f: 

writer = csv.writer(f, dialect=my_dialect) 
writer.writerow(('one', 'two', 'three')) 
writer.writerow(('1', '2', '3°')) 
writer.writerow(('4', '5', '6°')) 
writer.writerow(('7', '8', '9°')) 








JSON 数 据 


JSON (JavaScript Object Notation 的 简称 ) 已 经 
成 为 通过 HTTP 请 求 在 Web 浏览 器 和 其 他 应 用 程序 
之 间 发 送 数 据 的 标准 格式 之 一 。 它 是 一 种 比 表格 型 
(如 CSV) 灵活 得 多 的 数据 格式 。 下 面 古 
人 ( 刘 可 


obj En 
{"name": "Wes", 
"places_lived": ["United States", "Spain", "Germany"], 
"pet": null, 
"siblings": [{"name": "Scott", "age": 25, "pet": "Zuko"}, 
{"nNname": "Katie", "age": 33, "pet": "Cisco"}|] 
} 


除 其 空 值 null 和 一 些 其 他 的 细微 差别 (如 列表 
末尾 不 允许 存在 多 余 的 逗号 ) 之 外 ，JSON 非 常 接 
近 于 有 效 的 Python 代码 。 基 本 类 型 有 对 象 〈 字 
典 ) 、 数 组 (列表) 、 字 符 串 、 数 值 、 布 尔 值 以 及 
null。 对 象 中 所 有 的 键 都 必须 是 字符 串 。 许 多 
Python 库 都 可 以 读 写 JSON 数 据 。 我 将 使 用 json， 
为 它 是 构建 于 Python 标准 库 中 的 。 通 过 json.loads 即 
可 将 JSON 字 符 串 转换 成 Python 形式 ; 


In [899]: import json 





In [900]: result = json. loads(obj ) 


In [901]: result 
Out[901] : 


{tuU' name ': u'Wes', 

u'pet': None, 

u'places_lived': [u'United States', u'Spain', u'Germany'], 

u'siblings': [{u'age': 25, u'name': u'Scott', u'pet': u'Zuko' 
{U'age': 33, U'name': u'Katie', u'pet': u'Cisco'}]} 


相反 ，json.dumps 则 将 Python 对 象 转换 成 JSON 
格式 : 


In [902]: asjson = json.dumps(result) 


如 何 将 一 个 或 一 组 ) JSON 对 象 转换 为 
DataFrame 或 其 他 便于 分 析 的 数据 结构 束 由 你 决定 
了 。 最 简单 方便 的 方式 是 : 向 DataFrame 构 造 器 传 
入 一 组 JSON 对 象 ， 并 选取 数据 字段 的 子 集 亲 5。 

In [903]: siblings = DataFrame(result["siblings'"], columns=["n 
In [904]: siblings 
out[904] : 

RE 


© Scott 25 
1 Katie 33 


第 7 章 中 关于 USDA Food Database 的 那个 例子 
进一步 讲解 了 JSON 数 据 的 读 取 和 人 处理 (包括 铅 套 
记录 ) 。 


注意 : pandas 团 队 正 致 力 于 为 pandas 添 加 原生 
的 高 效 JSON 导 出 (to_json〉 和 解码 (from_json) 
功能 。 不 过 目前 还 没 开 发 完成 。 


XML 和 HTML: Web 信 息 收集 


Python 有 许多 可 以 读 写 HTML 和 XML 格式 数据 
的 库 。lxml (http:/lxml.de) 就 是 其 中 之 一 ， 它 能 够 
高 效 且 可 靠 地 解析 大 文件 。lxml 有 多 个 编程 接口 。 
首先 我 要 用 lxml.html 处 理 HTML， 然 后 再 用 
lxml.objectify 做 一 些 XML 人 处 理 。 


许多 网 站 都 将 数据 放 到 HTML 表 格 中 以 便 在 浏 

览 右 中 查看 ， 但 不 能 以 一 种 更 易于 机 恬 阅 读 的 格式 
(如 JSON、HTML 或 XML) 进行 下 载 。 我 发 现 

Yahoo!Finance 的 股票 期 权 数 据 束 是 这 样 。 可 能 你 对 
这 种 数据 不 就 悉 ， 期 权 是 指使 你 有 权 从 现在 开始 到 
未 来 某 个 时 间 (到 期 日 ) 内 以 某 个 特定 价格 (执行 
价 ) 买 进 ( 看 涨 期 权 ) 或 走出 (看 跌 期 权 ) 某 公司 
股票 的 衍生 合约 。 人 们 的 看 涨 和 看 跌 期 权 交 易 有 多 
种 执行 价 和 到 期 日 ， 这 些 数 据 都 可 以 在 
Yahoo!Finance 的 各 种 表格 中 找到 。 


首先 ， 找 到 你 希望 获取 数据 的 URL， 利 用 
urllib2 将 其 打开 ， 然 后 用 lxml 解 析 得 到 的 数据 流 ， 
如 下 所 示 : 


from lxml.html import parse 
from urllib2 import urlopen 





parsed = parse(urlopen('http://finance.yahoo.com/dqd/op?s=AAPL+C 


doc = parsed.getroot() 


通过 这 个 对 象 ， 你 可 以 获取 特定 类 型 的 所 有 
HTML 标 签 (tag) ， 比 如 含有 所 需 数 据 的 table 标 
签 。 给 这 个 简单 的 例子 加 点 局 发 性 ， 假 设 你 想得到 
该 文档 中 所 有 的 URL 链 接 。HTML 中 的 链接 是 a 标 
签 。 使 用 文档 根 节点 的 findall 方 法 以 及 一 个 
XPath 〈 对 文档 的 “查询 ”的 一 种 表示 手段 ) : 


In [906]: links = doc.findall('.//a') 





In [907]: links[15:20] 
Out[907]: 

[<Element a at Ox6c488f0>, 
<Element a at Ox6c48950>, 
<Element a at Ox6c489b0>, 
<Element a at Ox6c48a10>, 
<Element a at 0Xx6c48a70>] 





但 这 些 是 表示 HTML 元 素 的 对 象 。 要 得 到 URL 
和 链接 文本 ， 你 必须 使 用 各 对 象 的 get 方 法 (针对 
URL) 和 text_content 方 法 (针对 显示 文本 ) : 








In [908]: lnk = links[28] 


In [909]: lnk 
Out[909]: <Element a at Ox6c48dd0> 


In [910]: lnk.get('href') 
Out[910]: 'http://biz.yahoo.com/special.html' 


In [911]: lnk.text_content() 
Out[911]: "Special Editions' 





因此 ， 编 写 下 面 这 条 列表 推 寻 式 (list 





comprehension〉 即 可 获取 文档 中 的 全 部 URL: 


In [912]: urls = [lnk.get('href') for lnk in doc.findall('.//a 


In [913]: urls[-10:] 

Out[913]: 
['http://info.yahoo.com/privacy/us/yahoo/finance/details.html' 
'http://info.yahoo.com/relevantads/', 
'http://docs.yahoo.com/info/terms/', 
'http://docs.yahoo.com/info/copyright/copyright.html', 
'http://help.yahoo.com/l/us/yahoo/finance/forms_index.html', 
'http://help.yahoo.com/l/us/yahoo/finance/quotes/fitadelay.htnr 
'http://help.yahoo.com/l/us/yahoo/finance/quotes/fitadelay.htnr 
'http://www.capitaliq.com’', 

'http://www.csidata.com', 

'http://www.morningstar.com/'|] 





现在 ， 从 文档 中 找 出 正确 表格 的 办 法 就 是 反复 
试验 了 。 有 些 网 站 会 给 目标 表格 加 上 一 个 id 属 性 。 
0 
格 : 


tables = doc.findall('.//table') 
calls = tables[9] 
puts = tables[13] 


每 个 表格 部 有 一 个 标题 行 ， 然 后 才 是 数据 行 : 
In [915]: rows = calls.findall('.//tr') 
对 于 标题 行 和 数据 行 ， 我 们 希望 获取 每 个 单元 


格 内 的 文本 。 对 于 标题 行 ， 就 是 也 单元 格 ， 而 对 于 
数据 行 ， 则 是 td 单元 格 : 


def _unpack(row, kind="'td"'): 








elts = row.findall('.//%s' % kind) 
return [val.text_content() for val in elts] 


这 样 ， 我 们 残 得 到 了 : 


In [917]: _unpack(rows[0], kind='th') 
Out[917]: ['Strike', 'Symbol', 'Last', 'Chg', 'Bid' 
In [918]: _unpack(rows[1], kind='td') 
Out[918]: 

['295.00' ， 

'"AAPL120818C00295000 ' ， 

"310 .40 ' ， 

”0.00 '， 

289.80'， 

'290.80', 

1 1 1 ; 

'169'] 


现在 ， 把 所 有 步骤 结合 起 来 ， 将 数据 转换 为 一 
个 DataFrame。 由 于 数值 型 数据 仍然 是 字符 串 格 
式 ， 所 以 我 们 希望 将 部 分 列 《〈 可 能 不 是 全 部 ) 转换 
为 浮 点 数 格式 。 虽 然 你 可 以 手工 实现 该 功能 ， 但 是 
pandas 恰 好 承 有 一 个 TextParser 类 可 用 于 目 动 类 型 转 
换 (read_csv 和 其 他 解析 函数 其 实在 内 部 都 用 到 了 


区 让 





from pandas.io.parsers import TextParser 


def parse_options_ data(table): 
rows = table.findall('.//tr') 
header = _unpack(rows[0], kind='th') 
data = [_unpack(r) for r in rows[1:]] 
return TextParser(data, names=header).get_chunk() 





最 后 ， 我 对 那 两 个 lxml 表 格 对 象 调用 该 解析 函 


数 并 得 到 最 终 的 DataFrame: 
In [920]: call data = parse_options_data(calls) 


In [921]: put_data = parse_options_data(puts ) 


In [922]: call data[ :10] 


Out [922] : 

Strike Symbol Last chg 
0 295 AAPL120818C00295000 310 .40 0.0 
1 300 AAPL120818C00300000 277 .10 1.7 
2 305 AAPL120818C00305000 300 .97 0.0 
3 310 AAPL120818C00310000 267 .05 0.0 
4 315 AAPL120818C00315000 296 .54 0.0 
5 320 AAPL120818C00320000 291.63 0.0 
6 325 AAPL120818C00325000 261.34 0.0 
7 330 AAPL120818C00330000 230 .25 0.0 
8 335 AAPL120818C00335000 266 .03 0.0 
9 340 AAPL120818C00340000 272.58 0.0 


利用 lxml.objectify 解 析 XML 


XML (Extensible Markup Language) 是 另 一 种 
常见 的 文 持 分 层 、 髓 套数 据 以 及 元 数据 的 结构 化 数 
据 格 式 。 本 书 所 使 用 的 这 些 文件 实际 上 来 自 于 一 个 
很 大 的 XML 文档 。 


之 前 ， 我 介绍 了 lxml 库 及 其 lxml.html 接 口 。 这 
里 我 将 介绍 另 一 个 用 于 操作 XML 数据 的 接口 ， 即 
]xml.objectify 。 





纽约 大 都 会 运输 噶 (Metropolitan 


Transportation Authority，MTA) 发 布 了 一 些 有 关 其 
公交 和 列车 服务 的 数据 资料 
(http:/www.mta.info/developers/download.html) 。 
这 里 ， 我 们 将 看 看 包含 在 一 组 XML 文件 中 的 运行 情 
况 数据 。 每 项 列车 或 公交 服务 都 有 各 目的 文件 《如 
Metro-North Railroad 的 文件 是 
Performance MNR.xml' 二 6) ， 其 中 每 条 XML 记录 
束 是 一 条 月 度数 据 ， 如 下 所 示 : 


<INDICATOR> 

<INDICATOR_SEQ>373889</INDICATOR_SEQ> 
<PARENT_SEQ></PARENT_SEQ> 

<AGENCY_NAME>Metro-North Railroad</AGENCY_NAME> 
<INDICATOR_NAME>Escalator Availability</INDICATOR_ NAME> 
<DESCRIPTION>Percent of the time that escalators are operation 
systemwide. The availability rate is based on physical observa 
<PERIOD_YEAR>2011</PERIOD_YEAR> 

<PERIOD MONTH>12</PERIOD_ MONTH> 

<CATEGORY>Service Indicators</CATEGORY> 
<FREQUENCY>M</FREQUENCY> 

<DESIRED_CHANGE>U</DESIRED_CHANGE> 
<INDICATOR_UNIT>%</INDICATOR_UNIT> 
<DECIMAL_PLACES>1</DECIMAL_PLACES> 

<YTD_TARGET>97 .00</YTD_TARGET> 

<YTD_ACTUAL></YTD_ACTUAL> 

<MONTHLY_ TARGET>97 .00</MONTHLY_TARGET> 
<MONTHLY_ACTUAL></MONTHLY_ACTUAL> 

</INDICATOR> 


我 们 先 用 lxml.objectify 解 析 访 文件 ， 然 后 通过 
getroot 得 到 该 XML 文件 的 根 节 点 的 引用 : 


from lxml :import objectify 








path = 'Performance_ MNR.xml' 
parsed = objectify,parse(open(path ) ) 


root = parsed.getroot() 


root.INDICATOR 返 回 一 个 用 于 产生 各 个 
<INDICATOR>XML 元 素 的 生成 器 。 对 于 每 条 记 
录 ， 我 们 可 以 用 标记 名 《如 YTD_ACTUAL ) 和 数 
据 值 填充 一 个 字典 (排除 几 个 标记 〉 "7. 


data = [|] 








skip_fields = ['PARENT_SEQ', 'INDICATOR_ SEQ', 'DESIRED_CHANGE' 


for elt in root.INDICATOR: 
el data = {} 
for child in elt.getchildren(): 
if child.tag in skip_fields: 
continue 
el_ data[child.tag] = child.pyval 
data.append(el_ data) 


最 后 ， 将 这 组 字典 转换 为 一 个 DataFrame: 


In [927]: perf = DataFrame(data) 


In [928]: perf 

Out[928]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 648 entries, © to 647 
Data columns: 

AGENCY_NAME 648 non-null values 
CATEGORY 648 non-null values 
DESCRIPTION 648 non-null values 
FREQUENCY 648 non-null values 
INDICATOR_NAME 648 non-null values 
INDICATOR_UNIT 648 non-null values 
MONTHLY_ACTUAL 648 non-null values 
MONTHLY_TARGET 648 non-null values 
PERIOD_MONTH 648 non-null values 
PERIOD_YEAR 648 non-null values 
YTD_ACTUAL 648 non-null values 


YTD_TARGET 648 non-null values 
dtypes: int64(2), object(10) 


Empty DataFrame 
Columns: array([], dtype=int64) 
Index: array([], dtype=int64) 


XML 数据 可 以 比 本 例 复 杂 得 多 。 每 个 标记 都 可 
以 有 元 数据 。 看 看 下 面 这 个 HIML 的 链接 标记 〈 它 
也 算是 一 段 有 效 的 XML ) : 


from StringIO import StringIO 
tag = '<a href="http://www.google.com">Google</a>' 


root = objectify.parse(StringI0(tag)).getroot() 


现在 就 可 以 访问 链接 文本 或 标记 中 的 任何 字段 
了 (如 href) : 


In [930]: root 
Out[930]: <Element a at 0Xx88bd4b0> 


In [931]: root.get('href') 
Out[931]: 'http://www.google.com’ 


In [932]: root.text 
Out[932]: 'Google' 


译注 1:， 还 是 那 句 话 ， 作 者 用 的 是 UNIX，Windows 
下 得 用 type。 

译注 2; 这 里 的 “模式 ”一 词 表示 的 是 “字符 串 >”。 如 果 
对 此 概念 较 模 糊 ， 建 议 阅 读 《 数 据 结构 》。 

译注 3: 准确 的 说 法 应 该 是 : 列 名 的 数量 比 列 的 数 
量 少 1。 完 整 的 说 法 应 该 是 : 列 名 “ 行 * 中 “有 内 容 
的 ”字段 数量 比 其 他 数据 “ 行 ? 中 “有 内 容 的 ”字段 数量 














少 1。 
译注 4 很 明显 ， 这 里 得 到 的 结果 不 是 元 组 而 是 列 
表 


译注 5: 意思 是 说 可 以 选 一 部 分 字段 。 当 然 也 可 以 
全 部 选 完 。 

译注 6: 该 文件 已 经 更 名 ， 但 还 是 可 以 下 载 到 相关 
的 文件 。 

译注 7， 由 于 数据 文件 格式 已 经 改变 ， 所 以 这 段 代 
码 不 能 直接 执行 了 ， 需 要 按照 新 的 数据 格式 稍微 调 
整 一 下 ， 不 过 也 不 厂 烦 ， 留 给 谈 者 当做 练习 吧 。 











二 进 制 数据 格式 


实现 数据 的 二 进 制 格 式 存 储 最 简单 的 办 法 之 一 
是 使 用 Python 内 置 的 pickle 序 列 化 。 为 了 使 用 方便 ， 
pandas 对 象 都 有 一 个 用 于 将 数据 以 pickle 形 式 保 存 到 
合租 上 的 save 方法 : 





In [933]: frame = pd.read csv('cho6/exi.csv') 


In [934]: frame 

Out[934]: 

a b C d message 

二 2 3 4 hello 

5 6 7 8 world 

9 10 11 12 foo 

[935]: frame.save('cho6/frame_pickle') 


你 可 以 通过 男 一 个 也 很 好 用 的 pickle 函 数 
pandas.load 将 数据 读 回 到 Python: 


In [936]: pd.load('cho6/frame_pickle') 


Out[936]: 

a b C d message 
© 1 2 3 4 hello 
1 5 6 7 8 world 
2 9 10 11 12 foo 


警告 : pickle 仅 建议 用 于 短期 存储 格式 。 其 原 
因 是 很 难保 证 该 格式 永远 是 稳定 的 ; 今天 pickle 的 
对 象 可 能 无 法 被 后 续 版 本 的 库 unpickle 出 来 。 虽 然 
我 尽力 保证 这 种 事情 不 会 发 生 在 pandas 中 ， 但 是 今 


后 的 某 个 时 候 说 不 定 还 是 得 “打破 ”该 pickle 格 式 。 
使 用 HDF5 格 式 


很 多 工具 都 能 实现 高 效 读 写 做 盘 上 以 二 进 制 格 
式 存 储 的 科学 数据 。HDEF5 就 是 其 中 一 个 流行 的 工 
业 级 库 ， 它 是 一 个 C 库 ， 带 有 许多 语言 的 接口 ， 如 
Java、Python 和 MATLAB 等 。HDF5 中 的 HDF 指 的 
是 层次 型 数据 格式 (hierarchical data format)。 
个 HDF5 文 件 都 含有 一 个 文件 系统 式 的 节点 结构 ， 
它 使 你 能 够 存储 多 个 数据 集 并 文 持 元 数据 。 与 其 他 
简 早 格式 相 比 ，HDF5 支 持 多 种 压缩 器 的 即时 压 
缩 ， 还 能 更 高 效 地 存储 重复 模式 数据 。 对 于 那些 非 
第 大 的 无 法 直接 放 入 内 存 的 数据 集 ，HDF5 束 是 不 
错 的 选择 ， 因 为 它 可 以 高 效 地 分 块 恋 写 。 


Python 中 的 HDF5 库 有 两 个 接口 〈 即 PyTables 和 
h5py〉， 它 们 各 目 米 取 了 不 同 的 问题 解决 方式 。 
h5py 捉 供 了 一 种 直接 而 高 级 的 HDF5API 访 问 接口 ， 
而 PyTables 则 抽象 了 HDF5 的 许多 细节 以 提供 多 种 灵 
活 的 数据 容 堪 、 表 索引 、 碍 询 功能 以 及 对 核 外 计算 
技术 〈out-of-core computation ) 的 某 些 文 持 。 


pandas 有 一 个 最 小 化 的 类 似 于 字典 的 HDFStore 
类 ， 它 通过 PyTables 存 储 pandas 对 象 : 














In [937]: store = pd.HDFStore('mydata.h5s') 
In [938]: store['obj1'] = frame 

In [939]: store['obj1 col'] = frame['a'] 
In [940]: store 

Out[940]: 

<class 'pandas.io.pytables.HDFStore'> 

File path: mydata.hs 


obj1 DataFrame 
obj1i_col Series 


HDF5 文 件 中 的 对 象 可 以 通过 与 字典 一 样 的 方 
式 进 行 获取 : 


In [941]: store['obj1'] 








Out[941] : 

a b (e: d message 
© 1 2 3 4 hello 
1 5 6 7 8 world 
2 9 10 11 12 foo 


如 果 和 需要 处 理 海量 数据 ， 我 建议 你 好 好 研究 一 
下 PyTables 和 h5py， 看 看 它们 能 满足 你 的 哪些 需 
求 。 由 于 许多 数据 分 析 问 题 都 是 IO 密集 型 〈 而 不 是 
CPU 密集 型 ) ， 利 用 HDF5 这 样 的 工具 能 显著 提升 
应 用 程序 的 效率 。 


和 警告: HDF5 个 是 数据 库 。 它 最 适合 用 作 “ 一 次 
写 多 次 读 ” 的 数据 集 。 虽 然 数据 可 以 在 任何 时 候补 
添加 到 文件 中 ， 但 如 果 同 时 发 生 多 个 写 操作 ， 文 件 
驶 可 能 会 被 破坏 。 








谈 取 Microsoft Excel 文 件 








pandas 的 ExcelFile 类 文 持 谈 取 存储 在 Excel 
2003 《或 更 高 版 本 ) 中 的 表格 型 数据 。 由 于 
ExcelFile 用 到 了 xlrd 和 openpyxl 包 ， 所 以 你 先 得 安装 
它们 才 行 。 通 过 传 入 一 个 xls 或 xlsx 文 件 的 路 径 即 可 
创建 一 个 ExcelFile 实 例 : 








xls_file = pd.ExcelFile('data.xls') 


存放 在 某 个 工作 表 中 的 数据 可 以 通过 parse 读 取 
到 DataFrame 中 : 


table = xls_file.parse('Sheet1') 


使 用 HTML 和 Web API 


许多 网 站 都 有 一 些 通过 JSON 或 其 他 格式 提供 
数据 的 公共 API。 通 过 Python 访问 这 些 API 的 办 法 有 
不 少 。 一 个 简单 易 用 的 办 法 〈 推 荐 ) 是 requests 包 
(http://docs.python-requests.org) 。 为 了 在 Twitter 
上 搜索 "python pandas"， 我 们 可 以 及 送 一 个 HTTP 
GET 请 求 ， 如 下 所 示 : 


In [944]: import requests 
In [945]: url = 'http://search.twitter.com/search.json?q=pytho 
In [946]: resp = requests.get(url) 


In [947]: resp 
Out[947]: <Response [200]> 


Response 对 象 的 text 必 性 含有 GET 请 求 的 内 
容 。 许 多 Web API 返 回 的 都 是 JSON 字 符 串 ， 我 们 必 
须 将 其 加 载 到 一 个 Python 对 象 中 : 


In [948]: import json 
In [949]: data = json.1loads(resp.text) 


In [950]: data.keys() 
out[950]: 
[u'next_page', 
u'completed_ in', 
u'max_id_str', 
u'since_ id str', 
u'refresh_uril', 


u'results', 
u'since_id', 
u'results_per_page', 
U'duery '， 

U'max_ id ' ， 

u'page'] 


啊 应 结果 中 的 results 字 段 含 有 一 组 tweet， 每 条 
tweet 航 表示 为 一 个 Python 字典 ， 如 下 上 所 示 : 


{U'created at': u'Mon, 25 Jun 2012 17:50:33 +0000 ' ， 
u'from user': U'wesmckinn '， 

u'from user_id': 115494880, 

u'from user_id_ str': u'115494880", 

u'from user_name': u'Wes MckKinney', 

u'geo': None, 

u'id': 217313849177686018, 

u'id_str': U'217313849177686018 ' ， 

U'iso_language_ code': u'pt', 

u'metadata': {u'result type': u'recent'}, 

U'source': u'<a href="http://twitter.com/">web</a>', 
U'text ': u'Lunchtime pandas-fu http://t.co/SI70xZZQ #pydata', 
U'to_user': None, 

uU'to user_id': 0, 

uU'to_user_id str': u'O', 

U'to_user_name': None} 


我 们 用 一 个 列表 定义 出 感 兴趣 的 tweet 字 段 ， 然 
后 将 results 列 表 传 给 DataFrame: 


In [951]: tweet_fields = ['created at', 'from user', 'id', "te 
In [952]: tweets = DataFrame(datal['results'], columns=tweet_fi 


In [953]: tweets 

Out[953]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 15 entries, © to 14 

Data columns: 

created_at 15 non-null values 


from_user 15 non-null values 
id 15 non-null values 
text 15 non-null values 
dtypes: int64(1), object(3) 


现在 ，DataFrame 中 的 每 一 行 束 有 了 来 自 一 条 
tweet 的 数据 : 


In [121]: tweets.ix[7] 








Out[121]: 

created_at Thu, 23 Jul 2012 09:54:00 +0000 
from_user deblike 
id 227419585803059201 
text pandas: powerful Python data analysis toolkit 
Name: 7 


要 想 能 够 直接 得 到 便于 分 析 的 DataFrame 对 
象 ， 只 雷 再 多 费 些 精力 创建 出 对 常见 Web API 的 更 
高 级 接口 即 可 。 


使 用 数据 库 


在 许多 应 用 中 ， 数 据 很 少 取 目 文本 文件 ， 因 为 
用 这 种 方式 存储 大 量 数据 很 低 效 。 基 于 SQL 的 关系 
型 数据 库 (如 SQL Server、PostgreSQL 和 MySQL 
等 ) 使 用 非常 广泛 ， 此 外 还 有 一 些 非 SQL 〈 即 所 请 
的 NoSQL ) 型 数据 库 也 变 得 非常 流行 。 数 据 库 的 选 
择 通 常 取决 于 性 能 、 数 据 完整 性 以 及 应 用 程序 的 伸 
顷 性 雷 求 。 

将 数据 从 SQL 加 载 到 DataFrame 的 过 程 很 简 
单 ， 此 外 pandas 还 有 一 些 能 够 简化 该 过 程 的 函数 。 
例如 ， 我 将 使 用 一 蒜 艇 入 式 的 SQLite 数 据 库 (通过 
Python 内 置 的 sqlite3 驱 动 器 ) : 


import sqlite3 














query 二 TENTITI 

CREATE TABLE test 

(a VARCHAR(20), b VARCHAR(20), 
c REAL, d INTEGER 


con = sqlite3.connect(':memory:') 


con.execute(query) 
con.commit() 


然后 插入 几 行 数据 : 


data = [('Atlanta', 'Georgia', 1.25, 6), 
('Tallahassee', 'Florida', 2.6, 3), 


('Sacramento', 'California', 1.7, 5)] 
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)" 


con.executemany(stmt, data) 
con.commit() 


从 表 中 选取 数据 时 ， 大 部 分 Python SQL 驱动 器 
(PyYODBC、psycopg2、MySQLdb、pymssql 等 ) 都 
会 返回 一 个 元 组 列表 : 


In [956]: cursor = con.execute('select * from test') 
In [957]: rows = cursor.fetchall() 


In [958]: rows 

Out[958 ] : 

[(u'Atlanta', u'Georgia', 1.25, 6), 
(u'Tallahassee', u'Florida', 2.6, 3), 
(u'Sacramento', u'California', 1.7, 5)] 


你 可 以 将 这 个 元 组 列表 传 给 DataFrame 的 构造 
髓 ， 但 还 需要 列 名 (位 于 游标 的 description 属 性 
中 ) : 


In [959]: cursor .description 

Out[959 ] : 

(('a', None, None, None, None, None, None), 
('b', None, None, None, None, None, None), 
('c', None, None, None, None, None, None), 
('d', None, None, None, None, None, None)) 


In [960]: DataFrame(rows, columns=zip(*cursor.description)[0]) 
Out[960]: 


a b c d 
0 Atlanta Georgia 1.25 6 
1 Tallahassee Florida 2.60 3 
2 Sacramento California 1.70 5 





这 种 数据 规整 操作 相当 多 ， 你 肯定 不 想 每 得 一 
次 数据 库 就 重 写 一 次 。pandas 有 一 个 可 以 简化 该 过 
程 的 read_frame 函 数 〈 位 于 pandas.io.sql 模 块 ) 。 只 
需 传 入 select 语 句 和 连接 对 象 即 可 : 


In [961]: import pandas.io.sql as sql 


In [962]: sql.read frame('select * from test', con) 
Out[962]: 


a b c d 
0 Atlanta Georgia 1.25 6 
1 Tallahassee Florida 2.60 3 
2 Sacramento California 1.70 5 


存 取 MongoDB 中 的 数据 


NoSQL 数 据 库 有 许多 不 同 的 形式 。 有 些 是 简单 

的 字典 陈 键 值 对 存储 〈 如 BerkeleyDB 和 Tokyo 
Cabinet) ， 忆 一些 则 是 基于 文档 的 《其 中 的 基本 单 
元 是 字典 型 的 对 象 ) 。 本 例 选 用 的 是 
MongoDB (http://mongodb.org，〉。 我 先 在 自己 的 电 
脑 上 启动 一 个 MongoDB 实 例 ， 然 后 用 
pymongo (MongoDB 的 官方 驱动 右 ) 通过 默认 端口 
进行 连接 : 

import pymongo 

con = pymongo.Connection('localhost', port=27017) 


仔 储 在 MongoDB 中 的 文档 被 组 织 在 数据 库 的 
集合 (collection) “8 中 。MongoDB 服 务 器 的 每 个 








运行 实例 可 以 有 多 个 数据 库 ， 而 每 个 数据 库 又 可 以 
有 多 个 集合 。 假 设 你 想 保 存 之 前 通过 Twitter API 获 
取 的 数据 。 首 先 ， 我 可 以 访问 tweets 集 合 〈 和 暂时 还 


是 空 的 ) : 


tweets = con.db.tweets 


然后 ， 我 将 那 组 tweet 加 载 进来 并 通过 
tweets.save (用 于 将 Python 字 上 典 写 入 MongoDB) 逐 
个 存 入 集合 中 : 


import requests, json 
url = 'http://search.twitter.com/search.]json?q=python%20pandas 
data = json.loads(requests.get(url).text) 





for tweet in data['results']: 
tweets .save( tweet) 


现在 ， 如 果 我 想 从 该 集合 中 取出 我 自己 发 的 
tweet 《如果 有 的 话 ) ， 可 以 用 下 面 的 代码 对 集合 进 
行 查 询 : 

cursor = tweets.find({'from user': 'wesmckinn'}) 

返回 的 游标 是 一 个 迭代 右 ， 它 可 以 为 每 个 文档 
产生 一 个 字典 。 跟 之 前 一 样 ， 我 可 以 将 其 转换 为 一 
个 DataFrame。 此 外 ， 还 可 以 只 获取 各 tweet 的 部 分 
了 


tweet_fields = ['created at', 'from user', 'id', 'text'] 
result = DataFrame(list(cursor), columns=tweet_fields) 


详 注 8: 如 条 实在 不 明日 ， 可 直接 想象 成 表 。 


第 7 章 ” 数 据 规 整 化 :; 清理 、 转 换 、 合 
并 、 重 逆 


数据 分 析 和 建 模 方面 的 大 量 编程 工作 都 是 用 在 
数据 准备 上 的 : 加载、 清理、 转换 以 及 重 塑 。 有 时 
候 ， 存 放 在 文件 或 数据 库 中 的 数据 并 不 能 满足 你 的 
数据 处 理应 用 的 要 求 。 许 多 人 都 选择 使 用 通用 编程 
语言 〈 如 Python、Perl、R 或 Java) 或 UNIX 文 本 处 
理工 具 《〈 如 sed 或 awk) 对 数据 格式 进行 专门 处 理 。 
幸运 的 是 ，pandas 和 Python 标准 库 提 供 了 一 组 高 级 
的 、 有 灵活 的 、 高 效 的 核心 函数 和 算法 ， 它 们 使 你 能 
够 轻松 地 将 数据 规整 化 为 正确 的 形式 。 


如 果 你 发 现 了 一 种 本 书 或 pandas 库 中 没有 的 数 
据 操 作 方式 ， 请 尽管 在 邮件 列表 或 GitHub 网 站 上 提 
出 。 实 际 上 ，pandas 的 许多 设计 和 实现 都 是 由 真实 
应 用 有 的 需求 所 驱动 的 。 


























合并 数据 集 


pandas 对 象 中 的 数据 可 以 通过 一 些 内 置 的 方式 
进行 合并 : 


-pandas.merge 可 根据 一 个 或 多 个 键 将 不 同 
DataFrame 中 的 行 连 接 起 来 。SQL 或 其 他 关系 型 数 
据 库 的 用 户 对 此 应 该 会 比较 熟悉 ， 因 为 它 实现 的 不 
是 数据 库 的 连接 操作 。 


-pandas.concat 可 以 沿 着 一 条 轴 将 多 个 对 象 扒 县 
到 一 起 。 


-实例 方法 combine_first 可 以 将 重复 数据 编 接 在 
一 起 ， 用 一 个 对 象 中 的 值 填 充 为 一 个 对 象 中 的 缺失 


值 。 译注 1 





我 将 分 别 对 它们 进行 讲解 ， 并 给 出 一 些 例子 。 
本 书 剩 余部 分 的 示例 中 将 经 党 用 到 它们 。 


数据 库 风 格 的 DataFrame 合 并 
数据 集 的 合并 (merge) 或 连接 (join) 运算 是 


通过 一 个 或 多 个 键 将 行 链接 起 来 的 。 这 些 运 算是 关 
系 型 数据 库 的 核心 。pandas 的 merge 函 数 是 对 数据 应 


用 这 些 算法 的 主要 切入 所 。 
我 们 以 一 个 简单 的 例子 开始 : 


In [15]: df1i = DataFrame({'key': ['b', 'b', 'a', ca al' 
ee 'data1i': range(7)}) 


In [16]: df2 = DataFrame({'key': ['a', 'b', '"'d'], 
a 'data2': range(3)}) 


In [17]: df1 


Out[17]: 
datali key 
0 0 b 
1 1 b 
2 2 a 
3 3 C 
4 4 a 
5 5 a 
6 6 b 
In [18]: df2 
Out[18] : 
data2 Key 
0 0 a 
1 1 b 
2 2 d 


这 是 一 种 多 对 一 的 合并 。df1 中 的 数据 有 多 个 
被 标记 为 a 和 b 的 行 ， 而 df2 中 key 列 的 每 个 值 则 仅 对 
应 一 行 。 对 这 些 对 象 调用 merge 即 可 得 到 : 


In [19]: pd.merge(df1i, df2) 


Out[19]: 

datai key data2 
0 2 a 0 
1 4 a 0 
2 5 a 0 
3 0 b 1 
4 1 b 1 


5 6 b 1 


注意 ， 我 并 没有 指明 要 用 哪个 列 进行 连接 。 如 
东 没 有 指定 ，merge 就 会 将 重 登 列 的 列 名 当做 键 。 
不 过 ， 最 好 显 式 指定 一 下 : 


In [20]: pd.merge(df1，df2，on= 'Kkey ) 








Out[20] : 

datai key data2 
0 2 a 0 
1 4 a 0 
2 5 a 0 
3 0 b 1 
4 1 b 1 
5 6 b 1 


如 采 两 个 对 象 的 列 名 不 同 ， 也 可 以 分 别 进行 指 

十 : 
In [21]: df3 = DataFrame({'lkey': ['b', 'b', 'a', 'c', 'a', 'a 
ee 'data1i': range(7)} 


In [22]: df4 = DataFrame({'rkey': ['a', 'b', 'd'], 
i 'data2': range(3)} 


In [23]: pd.merge(df3, df4, left_on='lkey', right_on='rkey') 


Out [23]: 

datai lkey data2 rkey 
0 2 a 0 a 
1 4 a a 
2 5 a 0 a 
3 0 b 1 b 
4 1 b 1 b 
5 6 b 1 b 


可 能 你 已 经 注意 到 了 ， 结 果 里 面 c 和 d 以 及 与 之 
相关 的 数据 消失 了 。 默 认 情 况 下 ，merge 做 的 





征 "inner" 连 接 ; 结果 中 的 键 是 交集 。 其 他 方式 还 
有 "leftr"、"right" 以 及 "outer"。 外 连接 求 取 的 是 键 的 
并 集 ， 组 合 了 左 连 接 和 石 连接 的 效果 : 


In [24]: pd.merge(df1, df2, how='outer') 





Out[241]: 

datai key data2 
0 2 a 0 
1 4 a 0 
2 5 a 0 
3 0 b 1 
4 1 b 1 
5 6 b 1 
6 3 C NaN 
7 NaN d 4 


多 对 多 的 合并 操作 非常 简 竺 ， 无 需 人 额外 的 工 
作 。 如 下 所 示 : 


In [25]: df1 = DataFrame({'Kkey': B's "Db" "a “Cy "a "bb: 
Pp 'datal1' range(6)}) 


In [26]: df2 = DataFrame({'Kkey': a “bey Says “be. ds; 
a 'data2" range(5)}) 
In [27]: df1 


Out [27]: 
datali key 


© 


3 3 b 
4 4 
In [29]: pd.merge(df1, df2, on='key', how="'left') 
Out[29]: 
datai key data2 


© 2 a © 
1 2 a 2 
2 4 a © 
3 4 a 2 
4 0 b 1 
5 © b 3 
6 1 b 1 
7 1 b 3 
8 5 b 1 
9 5 b 3 
10 3 C NaN 





多 对 多 连接 产生 的 是 行 的 人 笛 卡 尔 积 。 由 于 左边 
的 DataFrame 有 3 个 "b" 行 ， 右 边 的 有 2 个 ， 所 以 最 终 
结果 中 就 有 6 个 "b" 行 。 连 接 方 式 只 影响 出 现在 结 
中 的 键 : 


In [30]: pd.merge(df1, df2, how='inner') 
Out[30]: 
datai key data2 

2 0 











OOOONPO 
OOPAPOOAESDN 
coneononoo 人 "J 
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要 根据 多 个 键 进行 合并 ， 传 入 一 个 由 列 名 组 成 
的 列表 即 可 : 


In [31]: left = DataFrame({' keylL': ['foo', 'foo', 'bar'], 
让 'key2': ['one', 'two', 'one'l], 
'lval': [1, 2, 3]}) 
In [32]: right = DataFrame({'key1i': ['foo', 'foo', 'bar', 'bar 
ee 'key2': ['one', 'one', 'one', 'twc 
'rval': [4, 5, 6, 7]1}) 
In [33]: pd.merge(left, right, on=['key1i', 'key2'], how='outer 
Out[33]: 
key1 key2 lval rval 
0 bar one 3 6 
1 bar two NaN 7 
2 foo one 1 4 
3 foo one 1 5 
4 foo two 2 NaN 


结果 中 会 出 现 哪 些 键 组 合 取 决 于 所 选 的 合并 方 
式 ， 你 可 以 这 样 来 理解 : 多 个 键 形成 一 系列 元 组 ， 
并 将 其 当做 单个 连接 键 〈 当 然 ， 实 际 上 并 不 是 这 人 么 
回 事 ) 。 


警告 : 在 进行 列 一 列 连 接 时 ，DataFrame 对 象 
中 的 索引 会 被 于 弃 。 


对 于 合并 运算 需要 考虑 的 最 后 一 个 问题 是 对 重 
复 列 名 的 处 理 。 虽 然 你 可 以 手工 处 理 列 名 重 登 的 问 
题 〈 稍 后 将 会 介绍 如 何 重 命名 轴 标 签 ) ， 但 merge 
有 一 个 更 实用 的 suffixes 选 项 ， 用 于 指定 附加 到 左右 
两 个 DataFrame 对 象 的 重 登 列 名 上 的 字符 串 : 


right, on='key1') 








In [34]: pd.merge(left, 
Out[34]: 

key1 key2 x lval key2 y rval 
© bar one 3 one 6 


1 bar one 3 two 7 
2 foo one 1 one 4 
3 foo one 1 one 5 
4 foo two 2 one 4 
5 foo two 2 one 5 


In [35]: pd.merge(left, right, on="'key1', suffixes=('_left', 


key1 key2_left lval Key2_right rval 


© bar one 3 one 6 
1 bar one 3 two 7 
2 foo one 1 one 4 
3 foo one 1 one 5 
4 foo two 2 one 4 
5 foo two 2 one 5 





merge 的 参数 请 参见 表 7-1。 索 引 上 的 连接 将 在 
下 一 节 中 讲解 。 


表 7-1: merge 函 数 的 参数 














参数 说 明 

left 参与 合并 的 左 侧 DataFrame 

right 参与 合并 的 右 侧 DataFrame 

how “inner”、“outer”、“left”、“right” 其 中 之 一 。 默 认为 


“inner” 





表 7-1: merge 函 数 的 参数 ( 续 ) 


参数 说 明 

on 用 于 连接 的 列 名 。 必 须 存 在 于 左右 两 个 DataFrame 对 象 中 。 如 果 未 指 
定 ， 且 其 他 连接 键 也 未 指定 ， 则 以 left 和 right 列 名 的 交集 作为 连接 键 

left_on 左 侧 DataFrame 中 用 作 连 接 键 的 列 

right_on 右 侧 DataFrame 中 用 作 连 接 键 的 列 


left_index 将 左 侧 的 行 索引 用 作 其 连接 键 
right_index 类 似 于 left_index 


sort 根据 连接 键 对 合并 后 的 数据 进行 排序 ， 默 认为 True。 有 时 在 处 理 大 数 
据 集 时 ， 禁 用 该 选项 可 获得 更 好 的 性 能 
suffixes 字符 串 值 元 组 ， 用 于 追加 到 重 苇 列 名 的 末尾 ， 默 认为 ('_x', '_y')。 例 


如 ， 如 果 左 右 两 个 DataFrame 对 象 都 有 “data”， 则 结果 中 就 会 出 现 
“data x 和 “datay” 


copy 设置 为 False， 可 以 在 某 些 特殊 情况 下 避免 将 数据 复制 到 结果 数据 结构 
中 。 默 认 总 是 复制 


索引 上 的 合并 


有 时 候 ， DataFrame 中 的 连接 键 位 于 其 索引 
中 。 在 这 种 情况 下 ， 你 可 以 传 入 left_index=True 或 
right_index=True (或 两 个 都 传 》 以 说 明 索 引 应 该 被 
用 作 连 接 键 : 


In [36]: left1 = DataFrame({'key': ['a', 'b', 'a', 'a', 'b', 
....: Value: range(6)}) 

In [37]: right1 = DataFrame({'group_val': [3.5, 7]}, index=['a 

In [38]: left1 








Out[38]: 

key value 
0 a 0 
1 b 1 
2 a 2 
3 a 3 


4 b 4 


5 C 5 

In [39]: right1 

Out[39]: 
group_val 

a 3.5 

b 7.0 


In [40]: pd.merge(left1, right1i, left_on='key', right_index=Tr 
Out[40]: 
key value group_val 


0 a 0 3.5 
2 a 2 3.5 
3 a 3 3.5 
1 b 1 7.0 
4 b 4 7.0 





由 于 默认 的 merge 方 法 是 求 取 连接 键 的 交集 ， 
因此 你 可 以 通过 外 连接 的 方式 得 到 它们 的 并 集 : 


In [41]: pd.merge(left1, right1i, left_on='key', right_index=Tr 
Out[41] : 
key value group_val 
a 0 3.5 





ORPPODNDO 
OT 
ORPPOOD 








对 于 层次 化 索引 的 数据 ， 事 情 束 有 点 复 森 了: 


In [42]: lefth = DataFrame({'key1i': ['Ohio', 'Ohio', 'Ohio', 
ee 'key2': [2000, 2001, 2002, 2001, 2 
'data': np.arange(5.)}) 


In [43]: righth = DataFrame(np.arange(12).reshape((6, 2)), 
Fi index=[['Nevada', 'Nevada', 'Ohio' 
[2001, 2000, 2000, 2000, 2001, 20C 

columns=['event1', 'event2 ' |]) 


In [44]: lefth 


data key1 key2 
0 0 Ohio 2000 
1 1 Ohio 2001 
2 2 Ohio 2002 
3 3 Nevada 2001 


4 4 Nevada 2002 

In [45]: righth 

Out[45] : 

event1L event2 

Nevada 2001 0 1 
2000 2 3 

Ohio 2000 4 5 
2000 6 7 
2001 8 9 
2002 10 11 


这 种 情况 下 ， 你 必须 以 列表 的 形式 指明 用 作 合 
并 键 的 多 个 列 (注意 对 重复 索引 值 的 处 理 ) ， 


In [46]: pd.merge(lefth, righth, left_ on=['key1i', 'key2'], rig 
Out[46]: 
data key1 key2 event1i event2 








3 3 Nevada 2001 0 1 
0 0 Ohio 2000 4 5 
0 0 Ohio 2000 6 7 
1 1 Ohio 2001 8 9 
2 2 Ohio 2002 10 11 


In [47]: pd.merge(lefth, righth, left_on=['key1', 'key2'], 
es right_index=True, how='outer') 


Out[47] 

data key1 key2 event1 event2 
4 NaN Nevada 2000 2 3 
3 3 Nevada 2001 0 1 
4 4 Nevada 2002 NaN NaN 
0 0 ohio 2000 4 5 
0 0 Ohio 2000 6 7 
1 1 Ohio 2001 8 9 
2 2 Ohio 2002 10 11 


同时 使 用 合并 双方 的 索引 也 没 问 题 : 


In [48]: left2 = DataFrame([[1., 2.], [3., 4.], [5., 6.]], ind 


columns=['Ohio', 'Nevada']) 


In [49]: right2 = DataFrame([[7., 8.], [9., 10.], [11., 12.1], 


In [50]: left2 


2 
4 
6 


Alabama 


Out[50]: 
Ohio Nevada 
a 1 
C 3 
e 5 
In [51]: right2 
Out[51] : 
Missouri 
b 7 
C 9 
d 11 
e 13 


index=['b', 'c', 'd', 'e'], column 


In [52]: pd.merge(left2, right2, how='outer', left_index=True, 


Ohio Nevada 


2 


NaN 


4 


NaN 


6 


Missouri Alabama 


NaN NaN 
7 8 
9 10 
11 12 
13 14 





DataFrame 还 有 一 个 join 实 例 方 法 ， 它 能 更 为 方 
便 地 实现 按 索 引 合 并 。 它 还 可 用 于 合并 多 个 带 有 相 
同 或 相似 索引 的 DataFrame 对 象 ， 而 不 管 它们 之 间 





与 





有 没有 重 伙 的 列 。 在 上 而 那个 例子 中 ， 我 们 可 以 纺 


In [53]: left2.join(right2, how='outer') 


Out[53]: 


Ohio Nevada 


Missouri Alabama 


a 1 2 NaN NaN 
b NaN NaN 7 8 
C 3 4 9 10 
d NaN NaN 11 12 
e 5 6 13 14 





由 于 一 些 历史 原因 (早期 版 本 的 pandas) ， 
DataFrame 的 join 方法 是 在 连接 键 上 做 左 连接 。 它 还 
文 持 参 数 DataFrame 的 索引 跟 调 用 者 DataFrame 的 某 








个 列 之 间 的 连接 : 





In [54]: left1.join(right1i, on="'key') 


Out[541]: 

key value group_val 
0 a 0 3 
1 b 1 7.0 
2 a 2 Sa 
3 a 3 3:5 
4 b 4 7.0 
5 C 5 NaN 


最 后 ， 对 于 简单 的 索引 合并 ， 你 还 可 以 同 join 
传 入 一 组 DataFrame (后 面 我 们 会 介绍 更 为 通用 的 


concat 浮 数 ， 它 也 能 实现 此 功能 


In [55]: another = DataFrame([[7., 8.], [9., 10.], [11., 12.1], 


index=['a', 


In [56]: left2.join([right2, another]) 
Out[56]: 


C 


了 


e 


了 


'f'], colun 


Ohio Nevada Missouri Alabama New York Oregon 


a 1 2 NaN NaN 
C 3 4 9 10 
e 5 6 13 14 


In [57]: left2.join([right2, another], how='outer') 


Out[57]: 


11 


8 
10 
12 


Ohio Nevada Missouri Alabama New York Oregon 


1 2 NaN NaN 7 8 


a 

b NaN NaN 7 8 NaN NaN 
C 3 4 9 10 9 10 
d NaN NaN 11 12 NaN NaN 
e 5 6 13 14 11 12 
f NaN NaN NaN NaN 16 17 


轴 问 连接 


男 一 种 数据 合并 运算 也 被 称 作 连 接 
(concatenation) 、 绑 定 (binding) 或 堆 暑 
(stacking) 。 WA 网 个 用 于 合并 原始 NumPy 

数组 的 concatenation 函数 : 


In [58]: arr = np.arange(12).reshape((3, 4)) 








In [59]: arr 

Out[59] : 

array([[ 0，1， 2, 3], 
[ 4, 5, 6, 7], 
[ 8, 9, 10, 11]]) 


In [60]: np.concatenate([arr, arr], axis=1) 


Out[60]: 

array([[ 0, 1, 2) 3, 0, 1, 2) 3], 
[ 4, 5, 6, 7, 4, 5, 6, 7], 
[ 8, 9, 10, 11, 8, 9, 10, 11]]) 


对 于 pandas 对 象 〈 如 Series 和 DataFrame) ， 带 
有 标签 的 轴 使 你 能 够 进一步 推广 数组 的 连接 运算 。 
具体 点 说 ， 你 还 需要 考虑 以 下 这 些 东 西 : 


如果 各 对 象 其 他 轴 上 的 索引 不 同 ， 那 些 轴 应 
该 是 做 并 集 还 是 交集 ? 











结果 对 象 中 的 分 组 需要 各 不 相同 吗 ? 
.用 于 连接 的 轴 重 要 吗 ? 
pandas 的 concat 函 数 提供 了 一 种 能 够 解决 这 些 


问题 的 可 靠 方式 。 我 将 给 出 一 些 例 子 来 讲解 其 使 用 
方式 。 假 设 有 三 个 没有 重 登 索引 的 Series: 


In [61]: si = Series([0, 1], index=['a', 'b']) 








In [62]: S2 = Series([2, 3, 4], index=['c', 'd', 'e']) 


In [63]: s3 = Series([5, 6], index=['f', 'g'"]) 


对 这 些 对 象 调用 concat 可 以 将 值 和 索引 粘 合 在 
一 起 ; 


In [64]: pd.concat([s1i, s2, s3]) 


Out[641]: 
a 0 
b 1 
C 2 
d 3 
e 4 
f 5 
g 6 


默认 情况 下 ，concat 是 在 axis=0 上 工作 的 ， 最 
终 产 生 一 个 新 的 Series。 如 果 传 入 axis=1， 则 结果 就 
会 变 成 一 个 DataFrame (axis=1 是 列 ) : 

In [65]: pd.concat([si, s2, s3], axis=1) 


Out[65] : 
0 1 2 


a © NaN NaN 
b 1 NaN NaN 
c NaN 2 NaN 
d NaN 3 NaN 
e NaN 4 NaN 
f NaN NaN 5 
g NaN NaN 6 


这 种 情况 下 ， 另 外 一 条 轴 上 没有 重 登 ， 从 索引 
的 有 序 并 集 〈 外 连接 ) 上 就 可 以 看 出 来 。 传 入 
join='inner 即 可 得 到 它们 的 交集 : 


In [66]: s4 = pd.concat([S1 * 5, s3]) 





In [67]: pd.concat([si, s4], axis=1) In [68]: pd.concat([si, s 


Out[67]: Out[68]: 
© 1 © 1 

a © 0 a 0 0 

b 1 5 b 1 5 

f NaN 5 

g NaN 6 


你 可 以 通过 join_axes 指 定 要 在 其 他 轴 上 使 用 的 


In [69]: pd.concat([si, s4], axis=1, join axes=[['a', 'c', 'b' 
Out[691]: 


a © © 
c NaN NaN 
b 1 5 
e NaN NaN 


不 过 有 个 问题 ， 参 与 连接 的 片段 在 结果 中 区 分 
不 开 。 假 设 你 想 要 在 连接 轴 上 创建 一 个 层次 化 过 
引 。 使 用 keys 参 数 即 可 达到 这 个 目的 : 








In [70]: result = pd.concat([si1i, si, s3], keys=['one', 'two', 


In [71]: result 


Out[71]: 

one a 0 
b 1 

two a © 
b 1 

three Ff 5 
g 6 





# 稍 后 将 详细 讲解 unstack 函 数 
In [72]: result.unstack() 


Out[72]: 

a b f g 
one 0 1 NaN NaN 
two 0 1 NaN NaN 


three NaN NaN 5 6 


如 果 沿 着 axis=1 对 Series 进 行 合 并 ， 则 keys 就 会 
成 为 DataFrame 的 列 头 : 
In [73]: pd.concat([si, s2, s3], axis=1, keys=['one', 'two', ' 


Out[73]: 
one two three 


a © NaN NaN 
b 1 NaN NaN 
c NaN 2 NaN 
d NaN 3 NaN 
e NaN 4 NaN 
f NaN NaN 5 
g NaN NaN 6 


同样 的 逻辑 对 DataFrame 对 象 也 是 一 样 : 


In [74]: df1 = DataFrame(np.arange(6).reshape(3，2)，index=[ 'a 
columns=['one', 'two']) 


In [75]: df2 = DataFrame(5 + np.arange(4).reshape(2, 2), index 
we columns=['three', 'four']) 


In [76]: pd.concat([df1, df2], axis=1, keys=['level1', 'level2 


Out[76]: 
Jevel1 Jevel2 
one two three four 
a 0 1 5 6 
b 2 3 NaN NaN 
C 4 5 7 8 


如 果 传 入 的 不 是 列表 而 是 一 个 字典 ， 则 字典 的 
键 就 会 被 当做 keys 选 项 的 值 : 


In [77]: pd.concat({'level1i': df1， 'level2': df2}, axis=1) 


Out[77]: 
Jevel1 Jevel2 
one two three four 
a 0 1 5 6 
b 2 3 NaN NaN 
C 4 5 7 8 








此 外 还 有 两 个 用 于 管理 层次 化 索引 创建 方式 的 
参数 (参见 表 7-2) : 


In [78]: pd.concat([df1, df2], axis=1, keys=['level1', 'level2 
names=['upper', 'lower']) 


Out[78]: 

upper level1 level2 

lower one two three four 
a 0 1 5 6 
b 2 3 NaN NaN 
C 4 5 7 8 


最 后 一 个 需要 考虑 的 问题 是 ， 跟 当前 分 析 工 作 
无 关 的 DataFrame 行 索引 2. 


In [79]: df1 = DataFrame(np.random.randn(3, 4), columns=['a', 


In [80]: df2 = DataFrame(np.random.randn(2, 3), columns=['b'"', 


In [81]: df1 
Out[81] : 

a b C d 
© -0.204708 0.478943 -0.519439 -0.555730 
1 1.965781 1.393406 0.092908 0.281746 
2 0.769023 1.246435 1.007189 -1.296221 
In [82]: df2 
Out[821]: 

b d a 
© 0.274992 0.228913 1.352917 
1 0.886429 -2.001637 -0.371843 


在 这 种 情况 下 ， 传 入 ignore_index=True 即 可 : 


In [83]: pd.concat([df1, df2], ignore_index=True) 
Out[83]: 


a b C d 
0 -0.204708 0.478943 -0.519439 -0.555730 
1 1.965781 1.393406 0.092908 0.281746 
2 0.769023 1.246435 1.007189 -1.296221 
3 1.352917 0.274992 NaN 0.228913 
4 -0.371843 0.886429 NaN -2.001637 


表 7-2: concat 函 数 的 参数 


参数 
objs 

axis 

join 
join_axes 


keys 


levels 
names 


verify_integrity 


ignore_index 


说 明 

参与 连接 的 pandas 对 象 的 列表 或 字典 。 唯 一 必需 的 参数 

指明 连接 的 轴 向 ， 默 认为 0 

“inner”、“outer” 其 中 之 一 ， 默 认为 “outer”。 指 明 其 他 轴 向 上 

的 索引 是 按 交集 (inner) 还 是 并 集 (outer) ) 进行 合并 

指明 用 于 其 他 n-1 条 轴 的 索引 ， 不 执行 并 集 / 交 集运 算 

与 连接 对 象 有 关 的 值 ， 用 于 形成 连接 轴 向 上 的 层次 化 索引 。 可 以 是 任 

直 的 列表 或 数组 、 元 组 数组 、 数 组 列表 (如 果 将 levels 设 置 成 多 级 数 

组 的 话 ) 

指定 用 作 层 次 化 索引 各 级 别 上 的 索引 ， 如 果 设置 了 keys 的 话 

用 于 创建 分 层级 别 的 名 称 ， 如 果 设 置 了 keys 和 (或 ) levels 的 话 

检查 结果 对 象 新 轴 上 的 重复 情况 ， 如 果 发 现 则 引发 异常 。 默 认 
(False) 人 允许 重复 

不 保留 连接 轴 上 的 索引 ， 产 生 一 组 新 索引 rangel(total_length) 


澳 











译注 3， 就 是 外 层级 别 的 索引 。 


合并 重 登 


还 有 
(merge) 


如 说 ， 你 可 


数据 





一 种 数据 组 合 问题 不 能 用 简单 的 合并 


或 连接 (concatenation〉 运算 来 处 理 。 比 
能 有 有 索引 全 部 或 部 分 重 登 的 两 个 数据 


集 。 给 这 个 例子 增加 一 点 启发 性 我 们 使 用 NumPy 





的 where 函 数 ， 它 用 于 表达 一 种 矢量 化 的 计 else: 
In [84]: a = Series([np.nan，2.5，np.nan，3.5，4.5，np.nan]， 
二 二 index=['f', 'e', 'd', 'c', 'b', 'a']) 
In [85]: b = Series(np.arange(len(a), dtype=np.float64), 


index=['f", 'e', “dg 7 “全 'b"', 'a']) 


In [86]: b[-1] = np.nan 


In [87]: a 
Out[87]: 

f NaN 

e 2.5 
d NaN 

C 3.5 
b 4.5 
a 


In [88]: 
Out[88]: 
f 0 


e 
d 
C 
b 
a 


b In [89]: np.where(pd.is 
Out[89]: 
f 


DTOOo0OD 


NaN 


Series 有 一 个 combine first 方 法 ， 实 现 的 也 是 一 
样 的 功能 ， 而 且 会 进行 数据 对 齐 : 


Out[90]: 
a NaN 
b 4.5 
C 3.0 
d 2.0 
e 1.0 
f 0.0 


对 于 DataFrame，combine first 自 然 也 会 在 列 上 
做 同样 的 事情 ， 因 此 你 可 以 将 其 看 做 : 用 参数 对 象 
中 的 数据 为 调用 者 对 象 的 缺失 数据 “ 打 补 丁 ”: 





[1., np.nan, 5., np.nan], 
b': [np.nan, 2., np.nan, 6.1, 


in [91]: df1 


In [92]: df2 


In [93]: df1. 


Out[93]: 


a 


b 


0 1 NaN 


Cc 
2 


= DataFrame({'a': 
Te 


= DataFrame({'a': 


combine_first(df2) 


range(2, 18, 4)}) 


[5., 4., np.nan, 


3:p 7»|]; 
b': [np.nan, 3., 4., 6., 8.1}) 


1 4 2 6 
2 5 4 10 
3 3 6 14 
4 7 8 NaN 


详 注 1: 通俗 来 说 ， 兰 不 多 融 是 数据 库 的 全 外 连接 

(注意 “ 兰 不 多 ”和 ?全 外 连接 ?这 两 个 词 ) 。 人 简单 地 
说 ， 束 是 先 从 第 一 个 对 象 中 选 值 ， 不 行 束 再 去 第 二 
个 对 象 中 选 值 。 

译注 2， 也 就 是 说 那些 行 索 引 是 无 意义 的 。 











重 塑 和 轴 间 旋转 

有 许多 用 于 重新 排列 表格 型 数据 的 基础 运算 。 
这 些 函 数 也 称 作 重 塑 (reshape) 或 轴 问 旋转 
(pivot) 运算 。 
重 塑 层次 化 索引 


层次 化 索引 为 DataFrame 数 据 的 里 排 任务 提供 
了 一 种 具有 恨 好 一 致 性 的 方式 。 主 要 功能 有 二 


“stack: 将 数据 的 列 “ 旋 转 ” 为 行 
-unstack: 将 数据 的 行 “ 旋 转 ” 为 列 。 


我 将 通过 一 系列 的 范例 来 讲解 这 些 操作 。 接 下 
来 看 一 个 简单 的 DataFrame， 其 中 的 行列 索引 均 为 











In We data = DataFrame(np arange(6 ) . ee 3)), 
index=pd.Index(['Ohio', 'Colorado'], 


ee pd.Index([' one， 'two', "thr 
In [95]: data 
Out[95] : 
number one two three 
state 
Ohio © 1 2 


Colorado 3 4 5 


使 用 该 数据 的 stack 方 法 即 可 将 列 转换 为 行 ， 得 


到 一 个 Series: 


In [96]: result = data.stack() 


In [97]: result 


Out[97]: 

state number 

Ohio one 0 
two 1 
three 2 

Colorado one 3 
two 4 
three 5 


对 于 一 个 层次 化 索引 的 Series， 你 可 以 用 
unstack 将 其 重 排 为 一 个 DataFrame: 


In [98]: result.unstack() 
Out[98 ] : 


number one two three 
state 

Ohio 0 1 2 
Colorado 3 4 5 





默认 情况 下 ，unstack 操 作 的 是 最 内 层 〈stack 也 
是 如 此 ) 。 传 入 分 层级 别 的 编写 或 名 称 即 可 对 其 他 
级 别 进行 unstack 操 作 : 


In [99]: result.unstack(0) In [100]: result.unstack(' 
Out[99] : Out[100 1] : 

State Ohio Colorado state Ohio Colorado 
number number 

one 0 3 one 0 3 
two 1 4 two 1 汪 
three 2 5 three 2 5 


如 果 不 是 所 有 的 级 别 值 都 能 在 各 分 组 中 找到 的 
话 ， 则 unstack 操 作 可 能 会 引入 缺失 数据 : 


In [101]: si = Series([0, 1, 2, 3], index=['a', 'b', 'c', 'd'] 
In [102]: s2 = Series([4, 5, 6], index=['c', 'd', 'e']) 
In [103]: data2 = pd.concat([si, s2], keys=['one', 'two']) 


In [104]: data2.unstack() 


Out[104]: 

a b c d e 
one 0 1 2 3NaN 
two NaN NaN 4 5 6 


stack 默 认 会 小 除 缺 失 数 据 ， 因 此 该 运算 是 可 他 
的 : 


In [105]: data2.unstack().stack() In [106]: data2.unstac 
one one 


DONoCNOTDY 
ORPOONOPO 

f 十 

三 

© 
DDoScnpnmnoaon Un 

乙 

几 

之 


在 对 DataFrame 进 行 unstack 操 作 时 ， 作 为 旋转 
轴 的 级 别 将 会 成 为 结果 中 的 最 低级 别 : 


In [107]: df = DataFrame({'left': result, 'right': result + 5} 
pe columns=pd.Index(['left', "right ']， 








In [108]: df 
Out[108]: 


SIde left 
state number 
Ohio one 
two 
three 
Colorado one 
two 
three 


ORPODPO 


In [109]: df.unstack('state') 


Out[109] : 
side left 
state Ohio Colorado 


number 

one © 3 
two 1 4 
three 2 5 


将 “长 格式 ”旋转 为 “ 宽 格式 ” 


时 间 序 列 数据 通 冲 是 以 所 谓 的 “长 格 


right 
Ohio 


5 
6 
7 


Colorado 


In [110]: 


Out[110]: 


state 


number side 


one 
two 


three 
right 


left 
right 
left 
right 
left 
7 


df .unstack( 


16€ 


式 ”(long) 或 “ 堆 炙 格 式 ”(stacked) 存储 在 数据 库 


和 CSV 中 的 : 4 


In [116]: ldatal[:10] 
Out[116]: 


1959-03-31 00:00:00 
1959-03-31 00:00:00 
1959-03-31 00:00:00 
1959-06-30 00:00:00 
1959-06-30 00:00:00 
1959-06-30 00:00:00 
1959-09-30 00:00:00 
1959-09-30 00:00:00 
1959-09-30 00:00:00 
1959-12-31 00:00:00 


OOO PO 


item 
realgdp 
In 和 后] 
unemp 
realgdp 
infl 
unemp 
realgdp 
infl 
unemp 
realgdp 


关系 型 数据 库 〈 如 MySQL ) 中 的 数据 经 背 都 
是 这 样 存 储 的 ， 因 为 固定 架构 〈 即 列 名 和 数据 类 
型 ) 有 一 个 好 处 : 随 着 表 中 数据 的 添加 或 删除 ， 
item 列 中 的 值 的 种 类 能 够 增加 或 减少 。 在 上 面 那 个 
例子 中 ，date 和 item 通 常 束 是 主键 (用 关系 型 数据 
库 的 说 法 ) ， 不 仅 提 供 了 关系 完整 性 ， 而 且 提 供 了 
更 为 简单 的 查询 文 持 。 当 然 这 也 是 有 缺点 的 : 长 格 
式 的 数据 操作 起 来 可 能 不 那么 轻松 。 你 可 能 会 更 豆 
欢 DataFrame， 不 同 的 item 值 分 别 形成 一 列 ，date 列 
中 的 时 间 值 则 用 作 索 引 。DataFrame 的 pivot 方 法 完 
全 可 以 实现 这 个 转换 : 


In [117]: pivoted = ldata.pivot('date', 'item', 'value') 








In [118]: pivoted,head ( ) 
Out[118]: 

item infl realgdp unemp 
date 

1959-03-31 0.00 2710.349 
1959-06-30 2.34 2778.801 
1959-09-30 2.74 2775.488 
1959-12-31 0.27 2785.204 
1960-03-31 2.31 2847.699 


前 两 个 参数 值 分 别 用 作 行 和 列 索引 的 列 名 ， 最 
后 一 个 参数 值 则 是 用 于 填充 DataFrame 的 数据 列 的 
列 名 。 假 设 有 两 个 需要 参与 重 塑 的 数据 列 : 


In [119]: ldata['value2'|] = np.random.randn(len(ldata)) 


O00ogo 
NDOWPOO 


In [120]: ldatal[:10] 
Out[120]: 
date item value value2 


0 1959-03-31 00:00:00 realgdp 2710.349 1.669025 
1 1959-03-31 00:00:00 infl 0.000 -0.438570 
2 1959-03-31 00:00:00 unemp 5.800 -0.539741 
3 1959-06-30 00:00:00 realgdp 2778.801 0.476985 
4 1959-06-30 00:00:00 infl 2.340 3.248944 
5 1959-06-30 00:00:00 unemp 5.100 -1.021228 
6 1959-09-30 00:00:00 realgdp 2775.488 -0.577087 
7 1959-09-30 00:00:00 infl 2.740 0.124121 
8 1959-09-30 00:00:00 unemp 5.300 0.302614 
9 1959-12-31 00:00:00 realgdp 2785.204 0.523772 


如 果 和 忽略 最 后 一 个 参数 ， 得 到 的 DataFrame 整 
会 负 有 层次 化 的 列 : 


In [121]: pivoted = ldata.pivot('date', 'item') 
In [122]: pivoted[:5] 
Out[122]: 

value value2 
item infl realgdp unemp infl realgdp 
date 
1959-03-31 0.00 2710 .349 5.8 -0.438570 1.669025 -0 
1959-06-30 2.34 2778.801 5.1 3.248944 0.476985 -1 
1959-09-30 2.74 2775.488 5.3 0.124121 -0.577087 0 
1959-12-31 0.27 2785 .204 5.6 0.000940 0.523772 1 
1960-03-31 2.31 2847.699 5.2 -0.831154 -0.713544 -2 
In [123]: pivoted['value'][:5] 
Out[123]: 
item infl realgdp unemp 
date 
1959-03-31 0.00 2710.349 5.8 
1959-06-30 2.34 2778.801 5.1 
1959-09-30 2.74 2775.488 5.3 
1959-12-31 0.27 2785.204 5.6 
1960-03-31 2.31 2847.699 5.2 


注意 ，pivot 其 实 只 是 一 个 快捷 方式 而 已 : 用 





set_index 创 建 层 次 化 索引 ， 再 用 unstack 重 塑 。 


In [124]: unstacked = ldata.set_index(['date', 


In [125]: unstacked[ :7] 
Out[125]: 


value 

item infl realgdp unemp 
date 

1959-03-31 0.00 2710.349 5.8 
1959-06-30 2.34 2778.801 5.1 
1959-09-30 2.74 2775.488 5.3 
1959-12-31 0.27 2785.204 5.6 
1960-03-31 2.31 2847.699 D2 
1960-06 2 5 2834.390 52 
1960-09- 2839 ,022 5.6 

译注 4: 昌 于 作者 在 此 处 并 未 他 
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value2 


infl 


438570 
248944 


124121 - 


©000940 


831154 - 


860757 
119827 


'item']).unstac 


POOOOP 


realgdp 


577087 
523772 


860761 





669025 - 
476985 - 
713544 - 


,265934 - 


绩 1data 的 生成 人 
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人 码 ， 而 后 面 义 需要 用 到 ， 所 以 不 和 BE 独立 看 筛 这 上 段 代 





码 。 下 载 的 资料 采用 的 不 是 这 个 格式 ， 
下 才 可 用 。 如 果 不 会 处 理 或 1 觉得 太 麻烦 ， 





编辑 一 下 吧 。 





不 过 还 是 建议 处 理 一 下 ， 


需要 站 理 一 


就 用 Excel 


了 。 给 个 相对 比较 简单 的 小 提示 : 先 加 载 进 来 ， 
后 stack， 然 后 保存 ， 然 后 再 加 载 进 来 。 


0 


然 


数据 转换 


本 章 到 目前 为 止 介绍 的 都 是 数据 的 重 排 。 帮 一 
类 重要 操作 则 是 过 小 、 消 理 以 及 其 他 的 转换 工作 。 


移 除 重 复数 据 


DataFrame 中 常常 会 出 现 重 复 行 。 下 面 束 是 一 
个 例子 : 


In [126]: data = DataFrame({'k1i': ['one'] *3+ ['two'] * 4, 
ee 'k2': [1, 1, 2, 3, 3, 4, 4]}) 


In [127]: data 


Out[127]: 
ki Kk2 
© one 1 
1 one 1 
2 one 2 
3 two 3 
4 two 3 
5 two 4 
6 two 4 


DataFrame 的 duplicated 方 法 返回 一 个 布尔 型 
Series， 表 示 各 行 是 含 是 重复 行 : 


In [128]: data.duplicated() 
Out[128]: 


4 True 
5 False 
6 True 


还 有 一 个 与 此 相关 的 drop_duplicates 方 法 ， 它 
用 于 返回 一 个 移 除 了 重复 行 的 Data-Frame "3; 
In [129]: data.drop_duplicates() 
Out [129] : 
ki1 
one 
one 


two 
two 


这 两 个 方法 默认 会 判断 全 部 列 ， 你 也 可 以 指定 
部 分 列 进 行 重 复 项 判断 。 假 设 你 还 有 一 列 值 ， 且 只 
希望 根据 k1 列 过 小 重复 项 : 


In [130]: data['v1i'] = range(7) 


入 


OWNO 
和 OOPD 


In [131]: data.drop_duplicates(['k1i"']) 
Out [131] : 
ki Kk2 vi 
0 one 1 0 
3 two 3 3 





duplicated 和 drop_duplicates 默 认 保 留 的 是 第 
个 出 现 的 值 组 合 。 传 入 take_last=True 则 保留 最 后 一 
个 
We 


In [132]: data.drop_duplicates(['k1i', 'k2'], take_last=True) 
Out[132]: 

ki Kk2 vi 
1 one 1 1 
2 one 2 2 


4 
6 


two 3 4 
two 4 6 


利用 函数 或 映射 进行 数据 转换 


组 、 
作 。 


在 对 数据 集 进行 转换 时 ， 你 可 能 希望 根据 数 
Series 或 DataFrame 列 中 的 值 来 实现 该 转换 工 
我 们 来 看 看 下 面 这 组 有 关 肉 类 的 数据 : 








In [133]: data = DataFrame({'food': ['bacon', "pulled pork', 


"Corned beef', 'Bacon', 'pastrami' 
'nova lox'], 
'ounces': [4, 3, 12, 6, 7.5, 8, 3, 


In [134]: data 
Out[134]: 


0 
1 


oo ~IOOA 上 wm 


food ounces 

bacon 4， 
pulled pork 3 . 
bacon 12 
Pastrami 6 
corned beef 7 
Bacon 8. 
pastrami 3 
honey ham 5 
Nova lox 6 


假设 你 想 要 添加 一 列表 示 该 肉 类 食物 来 源 的 动 


©OOOODooo 


物 关 型 。 我 们 先 编写 一 个 肉 类 到 动物 的 映射 : 


meat_to_animal = { 


'bacon': "pig"， 
"pulled pork': 'pig', 
'pastrami': 'cow', 
'corned beef': 'cow', 


'honey ham': "pig '， 
'Nnova lox': 'salmon' 


Series 的 map 方 法 可 以 接受 一 个 函数 或 含有 映射 
关系 的 字典 型 对 象 ， 但 是 这 里 有 一 个 小 问题 ， 即 有 
些 肉 类 的 首 字母 大 写 了 ， 而 另 一 些 则 没有 。 因 此 ， 
我 们 还 需要 将 各 个 值 转换 为 小 写 : 


In [136]: data['animal'] = data[ 'food'],map(Sstr.LIower).map(m 











In [137]: data 


Out[137] : 

food ounces animal 
0 bacon 4.0 pig 
1 pulled pork 3.0 pig 
2 bacon 12.0 pig 
3 Pastrami 6.0 COW 
4 corned beef 7.5 COW 
5 Bacon 8.0 pig 
6 pastrami 3.0 COW 
7 honey ham 5.0 pig 
8 nova lox 6.0 salmon 


我 们 也 可 以 传 入 一 个 能 够 完成 全 部 这 些 工作 的 
函数: 


In [138]: data['food'].map(lambda x: meat_to_animal[x.1lower( 
Out[138]: 

pig 

pig 


© 


1 

2 pig 
3 COW 
4 COW 
5 pig 
6 COW 
7 pig 
8 salmon 
N 


使 用 map 是 一 种 实现 元 素 级 转换 以 及 其 他 数据 
清理 工作 的 便捷 方式 。 


普 换 值 


利用 flna 方 法 填充 缺失 数据 可 以 看 做 值 苦 换 的 
一 种 特殊 情况 。 虽 然 前 面 近 到 的 map 可 用 于 修改 对 
象 的 数据 子 集 ， 而 replace 则 提供 了 一 种 实现 该 功能 
的 更 简单 、 更 灵活 的 方式 。 我 们 来 看 看 下 面 这 个 


Serles: 








In [139]: data = Series([1., -999., 2., -999., -1000., 3.1]) 


In [140]: data 


Out[140]: 
0 1 
1 -999 
2 2 
3 -999 
4 -1000 
5 3 


-999 这 个 值 可 能 是 一 个 表示 缺失 数据 的 标记 
值 。 要 将 其 蔡 换 为 pandas 能 够 理解 的 NA 值 ， 我 们 可 
以 利用 replace 来 产生 一 个 新 的 Series: 


In [141]: data.replace(-999, np.nan) 





Out[141] : 
0 1 
1 NaN 
2 2 
3 NaN 
4 -1000 


5 3 


如 果 你 希望 一 次 性 蔡 换 多 个 值 ， 可 以 传 入 一 个 
由 竺 葵 换 值 组 成 的 列表 以 及 一 个 谷 换 值 : 


In [142]: data.replace([-999, -1000], np.nan) 
Out[142] : 
工 
NaN 
2 
NaN 
NaN 
3 


如 果 和 希望 对 不 同 的 值 进行 不 同 的 合 换 ， 则 传 入 
一 个 由 蔡 换 关系 组 成 的 列表 即 可 : 


In [143]: data.replace([-999, -1000], [np.nan, 01]) 
Out[143]: 
1 
NaN 
2 
NaN 
0 
3 


传 入 的 参数 也 可 以 是 字典 : 


In [144]: data.replace({-999: np.nan, -1000: 0}) 
Out[144]: 
1 
NaN 
2 
NaN 
0 
3 


ORPOODNOPO 





ORPOODNDPO 


ORPODPO 


命名 轴 索 引 


跟 Series 中 的 值 一 样 ， 轴 标签 也 可 以 通过 函数 
或 映射 进行 转换 ， 从 而 得 到 一 个 新 对 象 。 轴 还 可 以 
饼 跌 地 修改 而 无 需 新 建 一 个 数据 结构 。 接 下 来 看 
看 下 面 这 个 简单 的 例子 


In [145]: data = DataFrame(np.arange(12).reshape((3, 4)), 
jy index=['O0hio', 'Colorado', 'New Y 
columns=['one', 'two', 'three', ' 


跟 Series 一 样 ， 轴 标签 也 有 一 个 map 方 法 : 


In [146]: data.index.map(str.upper) 
Out[146]: array( [OHIO, COLORADO, NEW YORK], dtype=object) 


你 可 oo 其 赋值 给 index， 这 样 就 可 以 对 
DataFrame 进 行 就 地 修改 了 了 : 


In [147]: data.index = data.index.map(str.upper) 


In [148]: data 


Out [148] : 

one two three four 
OHIO 0 1 2 3 
COLORADO 4 5 6 7 
NEW YORK 8 9 10 11 


如 果 想 要 创建 数据 集 的 转换 版 (而 不 是 修改 原 
始 数据 ) ， 比 较 实 用 的 方法 是 rename: 


In [149]: data.rename(index=str.title, columns=str.upper) 
Out[149]: 


ONE TwO THREE FOUR 


Ohio 0 1 2 3 
Colorado 4 5 6 7 
New York 8 9 10 11 


特别 说 明 一 下 ，rename 可 以 结合 字典 型 对 象 实 
现 对 部 分 轴 标 签 的 更 新 : 


In [150]: data.rename(index={'OHIO': 'INDIANA'}, 


a columns={"'three': 'peekaboo'}) 
Out[150]: 
one two peekaboo four 
INDIANA 0 1 2 3 
COLORADO 4 5 6 7 
NEW YORK 8 9 10 11 


rename 帮 我 们 实现 了 : 复制 DataFrame 并 对 其 
索引 和 列 标 签 进行 赋值 。 如 果 希 望 束 地 修改 某 个 数 
据 集 ， 传 入 inplace=True 即 可 : 


# 总 是 返回 DataFrame 的 引用 
In [151]: _ = data.rename(index={'OHIO': 'INDIANA'}, inplace 


In [152]: data 
Out[152]: 


one two three four 
INDIANA 0 1 2 3 
COLORADO 4 5 6 7 
NEW YORK 8 9 10 11 


离散 化 和 面 元 划分 


为 了 便于 分 机 ， 连 续 数 据 癌 币 航 离散 化 或 拆 分 
为 “ 面 元 ”(bin) 。 假 设 有 一 组 人 员 数 据 ， 而 你 希望 


将 它们 划分 为 不 同 的 年 龄 组 : 
接 下 来 将 这 些 数据 划分 为 "18 到 25” “26 到 


35”、“35 到 60” 以 及 “60 以 上 ” 几 个 面 元 。 要 实现 该 功 
能 ， 你 需要 使 用 pandas 的 cut 函 数 : 


In [154]: bins = [18, 25, 35, 60, 100] 





In [155]: cats = pd.cut(ages, bins) 

In [156]: cats 

Out[156]: 

Categorical: 

array([(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], (18 
(35, 60], (25, 35], (60, 100], (35, 60], (35, 60], (2 

Levels (4): Index([(18, 25], (25, 35], (35, 60], (60, 100]], 


pandas 返 回 的 是 一 个 特殊 的 Categorical 对 象 。 
你 可 以 将 其 看 做 一 组 表示 面 元 名 称 的 字符 串 。 实 际 
上 ， 它 含有 一 个 表示 不 同 分 类 名 称 的 levels 数 组 以 
及 一 个 为 年 龄 数据 进行 标号 的 labels 属 性 : 


In [157]: cats.1labels 
out [157]: array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1]) 














In [158]: cats.Jlevels 
Out[158]: Index([(18, 25], (25, 35], (35, 60], (60, 100]], d 


In [159]: pd.value_ counts(cats) 
Out[159]: 

(18, 25] 5 

(35, 60] 3 

(25, 35] 3 

(60, 100] 1 





跟 * 区 间 ?” 的 数学 符号 一 样 ， 圆 括号 表示 开 姗 ， 
而 方 括号 则 表示 闭关 《包括 ) 。 哪 边 是 财 端 可 以 通 
过 right=False 进 行 修改 : 

In [160]: pd.cut(ages, [18, 26, 36, 61, 100], right=False) 

Out[160]: 

Categorical: 

array([[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), [18 


[36, 61), [26, 36), [61, 100), [36, 61), [36, 61), [2 
Levels (4): Index([[18, 26), [26, 36), [36, 61), [61, 100)], 


你 也 可 以 设置 目 己 的 面 元 名 称 ， 将 labels 选 项 
设置 为 一 个 列表 或 数组 即 可 : 

In [161]: group_names = ['Youth', 'YoungAdult', 'MiddleAged' 

In [162]: pd.cut(ages, bins, labels=group_names) 

Out[162]: 

Categorical: 

array([Youth, Youth, Youth, YoungAdult, Youth, Youth, Middle. 


YoungAdult, Senior, MiddleAged, MiddleAged, YoungAdul 
Levels (4): Index([Youth, YoungAdult, MiddleAged, Senior], d 


如 果 辣 cut 传 入 的 是 面 元 的 数量 而 不 是 确切 的 面 
元 边界 ， 则 它 会 根据 数据 的 最 小 值 和 最 大 值 计 算 等 
长 面 元 。 下 面 这 个 例子 中 ， 我 们 将 一 些 均匀 分 布 的 
数据 分 成 四 组 : 


In [163]: data = np.random.rand(20) 








In [164]: pd.cut(data, 4, precision=2) 

Out[164]: 

Categorical: 

array([(0.45, 0.67], (0.23, 0.45], (0.0037, 0.23], (0.45, 0. 
(0.67, 0.9], (0.45, 0.67], (0.67, 0.9], (0.23, 0.45], ( 
(0.67, 0.9], (0.67, 0.9], (0.67, 0.9], (0.23, 0.45], (0 


(0.23, 0.45], (0.67, 0.9], (0.0037, 0.23], (0.0037, 0.2 
(0.23, 0.45], (0.23, 0.45]], dtype=object) 
Levels (4): Index([(0.0037, 0.23], (0.23, 0.45], (0.45, 0.67 
(0.67, 0.9]], dtype=object) 


qcut 丰 一 个 非 第 闫 似 于 cut 的 首 数 ， 它 可 以 根据 
样本 分 位 数 对 数据 进行 面 元 划分 。 根 据 数 据 的 分 布 
情况 ，cut 可 能 无 法 使 各 个 面 元 中 含有 相同 数量 的 数 
据点 。 而 qcut 由 于 使 用 的 是 样本 分 位 数 ， 因 此 可 以 
得 到 大 小 基本 相等 的 面 元 : 


In [165]: data = np.random.randn(1000) # 下 态 分 布 
In [166]: cats = pd.qcut(data，4) # 按 四 分 位 数 进行 切割 


In [167]: cats 
Out[167] : 
Categorical: 
array([(-0.022, 0.641], [-3.745, -0.635], (0.641, 3.26], ... 
(-0.635, -0.022], (0.641, 3.26], (-0.635, -0.022]], od 
Levels (4): Index([[-3.745, -0.635], (-0.635, -0.022], (-0.0 
(0.641, 3.26]], dtype=object) 


In [168]: pd.value counts(cats) 


Out[168 ] : 

[-3.745, -0.635] 250 
(0.641, 3.,26] 250 
(-0.635, -0.022] 250 
(-0.022, 0.641] 250 


跟 cut 一 样 ， 也 可 以 设置 目 定 义 的 分 位 数 (0 到 1 
之 间 的 数值 ， 包 含 端 反 〉: 


In [169]: pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.1]) 

Out[169 ] : 

Categorical: 

array([(-0.022, 1.302], (-1.266, -0.022], (-0.022, 1.302], . 
(-1.266, -0.022], (-0.022, 1.302], (-1.266, -0.022]], od 


Levels (4): Index([[-3.745, -1.266], (-1.266, -0.022], (-0.0 
(1.302, 3.26]], dtype=object) 


本 章 稍 后 在 讲解 聚合 和 分 组 运 四 时 会 再 次 用 到 


cut 和 qdcut， 因 为 这 两 个 离散 化 函数 对 分 量 和 分 组 分 
析 非 党 重要 。 


榨 ; 


则 和 过 滤 有 寞 第 值 
常 值 :6 (outlier) 的 过 滤 或 变换 运算 在 很 


大 程度 上 其 k 实 就 是 数组 运算 。 来 看 一 个 含有 正 态 分 
布 数据 的 DataFrame: 


值 : 


In [170]: np.random.seed(12345) 
In [171]: data = DataFrame(np.random.randn(1000, 4)) 


In [172]: data.describe() 


Out[172]: 

0 1 2 3 
count 1000.000000 1000.000000 1000.000000 1000.000000 
mean -0.067684 0.067924 0.025598 -0.002298 
std 0 .998035 0.992106 1.006835 0.996794 
min -3.428254 -3.548824 -3.184377 -3.745356 
25% -0.774890 -0.591841 -0.641675 -0.644144 
50% -0.116401 0.101143 0 .002073 -0.013611 
75% 9.616366 0.780282 0.680391 9.654328 
max 3.366626 2.653656 3.260383 3.927528 


假设 你 想 要 找 出 某 列 中 绝对 值 大 小 超过 3 的 


In [173]: col = data[3] 


In [174]: col[np.abs(col) > 3] 
Out[174]: 

97 3.927528 

305 -3.399312 

400 -3.745356 

Name: 3 


要 选 出 全 部 含有 “超过 3 或 一 3 的 值 ”的 行 ， 你 可 
以 利用 布尔 型 DataFrame 以 及 any 方 法 : 


In [175]: data[(np.abs(data) > 3).any(1)] 
Out[175]: 





0 1 2 3 
5 -0.539741 0.476985 3.248944 -1.021228 
97 -0.774363 0.552936 0.106061 3.927528 
102 -0.655054 -0.565230 3.176873 0.959533 
305 -2.315555 0.457246 -0.025907 -3.399312 
324 0.050188 1.951312 3.260383 0.963301 
400 0.146326 0.508391 -0.196713 -3.745356 
499 -0.293333 -0.242459 -3.056990 1.918403 
523 -3.428254 -0.296336 -0.439938 -0.867165 
586 0.275144 1.179227 -3.184377 1.369891 
808 -0.362528 -3.548824 1.553205 -2.186301 
900 3.366626 -2.372214 0.851010 1.332846 


根据 这 些 条 件 ， 即 可 轻松 地 对 值 进行 设置 。 下 
面 的 代码 可 以 将 值 限 制 在 区 间 一 3 到 3 以 内 : 


In [176]: data[np,abs(data) > 3] = np.sign(data) * 3 


In [177]: data.describe( ) 


Out[177]: 

0 1 2 3 
count 1000.000000 1000.000000 1000.,000000 1000.000000 
mean -0.067623 0 .068473 0.025153 -0.002081 
std 0.995485 0 .990253 1.003977 0.989736 
min -3.000000 -3.000000 -3.000000 -3.000000 
25% -90.774890 -0.591841 -0.641675 -9.644144 
50% -90.116401 0.101143 0 .002073 -0.013611 


75% 0.616366 0.780282 0.680391 0.654328 


max 3.000000 2.653656 3.000000 3.000000 


np.sign 这 个 ufunc 返 回 的 是 一 个 由 1 和 一 1 组 成 的 
数组 ， 表 示 原 始 值 的 从 号 。 


排列 和 随机 采样 


利用 numpy.random.permnutation 函 数 可 以 轻松 实 
现 对 Series 或 DataFrame 的 列 的 排列 工作 
(permuting， 随 机 重 排序 ) 。 通 过 需要 排列 的 
轴 的 长 度 调用 permutation， 可 产生 一 个 表示 新 顺序 
的 整数 数组 : 


In [178]: df = DataFrame(np.arange(5 * 4).reshape(5, 4)) 





In [179]: sampler = np.random.permutation(5) 


In [180]: sampler 
Out[180]: array([1, 0, 2, 3, 4]) 


然后 就 可 以 在 基于 这 的 索引 操作 或 fake 函数 中 
使 用 该 数组 了 : 


in [181]: df 


Out[181]: 
0 1 2 3 
0 1 2 3 


0 
1 4 5 6 7 
2 
3 


4 16 17 18 19 
In [182]: df.take(sampler) 
Out[182]: 


0 工 2 3 
1 4 5 6 7 
0 0 1 2 3 
2 8 9 10 11 
3 12 13 14 15 
4 16 17 18 19 





如 采 不 想 用 蔡 换 的 方式 选取 随机 子 集 ， 则 可 以 
使 用 permutation: 从 permnutation 返 回 的 数组 中 切 下 
前 k 个 元 素 ， 其 中 k 为 期 望 的 子 集 大 小 。 虽 然 有 很 多 
高 效 的 算法 可 以 实现 非 蔡 换 式 采样 ， 但 是 手边 就 有 
的 工具 为 什么 不 用 呢 ? 

In [183]: df.take(np.random.permutation(len(df))[:3]) 
Out[183]: 

0 1 2 3 
1 4 5 6 7 


3 12 13 14 15 
4 16 17 18 19 


要 通过 符 换 的 方式 产生 样本 ， 最 快 的 方式 是 通 
过 np.random.randint 得 到 一 组 随机 整数 : 








In [184]: bag = np.array([5, 7, -1, 6, 4]) 
In [185]: sampler = np.random.randint(0, len(bag), size=10) 


In [186]: sampler 
Out[186]: array([4, 4, 2, 2, 2, 0, 3, 0, 4, 1]) 


In [187]: draws = bag.take(sampler) 


In [188]: draws 
Out[188]: array([ 4, 4, -1, -1, -1, 5, 6, 5, 4, 7]) 


计算 指标 / 哑 变 量 


另 一 种 常用 于 统计 建 模 或 机 堪 学 习 的 转换 方式 
是 : 将 分 类 变量 (categorical variable) 转换 为 “ 吧 
变量 算 阵 ”(dummy matrix) 或 “指标 矩 
车 ”(indicator matrix) 。 如 果 DataFrame 的 某 一 列 
中 含有 kk 个 不 同 的 值 ， 则 可 以 派生 出 一 个 k 列 窍 阵 或 
DataFrame 〈 其 值 全 为 1 和 0) 。pandas 有 一 个 
get_dummies 峭 数 可 以 实现 该 功能 (其 实 日 己 动手 
做 一 个 也 不 难 ) 。 拿 之 前 的 一 个 例子 来 说 : 


In [189]: 


In [190]: 
Out[190]: 


a b 


OROODNOPO 
OPOPOO 
POOOPP 


©OOPOOOON 





df = DataFrame({'key': ['b', 'b' FS 


'data1i': range(6)}) 


pd.get_dummies(df['key']) 


有 时候 ， 你 可 能 想 给 指标 DataFrame 的 列 加 上 
一 个 前 级 ， 
get_dummies 的 prefix 人 参数 可 以 实现 该 功能 : 


In [191]: 
In [192]: 


In [193]: 
Out[193]: 


datal 
0 0 
1 1 


以 便 能 够 跟 其 他 数据 进行 合并 。 


dummies = pd.get_dummies(df['key']，prefix='key ') 
df_with_dummy = df[['datal']]. join(dummies) 
df_with_dummy 

key a key b key_c 


0 1 0 
0 1 0 


wa 下 wmN 
wa 人 N 
虽 上 虽 上 
POOO 
©oOPoO 


如 果 DataFrame 中 的 某 行 同属 于 多 个 分 类 ， 则 
捉 情 束 会 有 点 复杂 。 回 到 本 书 前 面 那个 MovieLens 
1M 数 据 集 上 : “8 


In [194]: mnames = ['movie_id', 'title', 'genres'] 





In [195]: movies = pd.read _ table('ch02/movielens/movies.dat', 
we names=mnames ) 


In [196]: movies[ :10] 


Out[196] : 

movie_id title 
0 1 Toy Story (1995) Animation|Ch 
1 2 Jumanji (1995) Adventure|Cchi 
2 3 Grumpier Old Men (1995) 
3 4 Waiting to Exhale (1995) 
4 5 Father of the Bride Part II (1995) 
5 6 Heat (1995) Action 
6 7 Sabrina (1995) 
7 8 Tom and Huck (1995 ) Adven 
8 9 Sudden Death (1995 ) 
9 10 GoldenEye (1995 ) Action |Adv 





要 为 每 个 genre 洪 加 指标 变量 整 需 要 做 一 些 数 据 
规整 操作 。 首 先 ， 我 们 从 数据 集中 抽取 出 不 同 的 
genre 值 (注意 巧 用 set.union): 


In [197]: genre_ iter = (set(x.split('|')) for x in movies.genr 


In [198]: genres = sorted(set.union(*genre_iter)) 


现在 ， 我 们 从 一 个 全 零 DataFrame 开 始 构 建 指 





标 DataFrame: 


In [199]: dummies = DataFrame(np.zeros((len(movies), len(genre 


接 下 来 ， 
项 设置 为 1: 


In [200]: for 


从 代 每 一 部 电影 并 将 dummies 各 行 的 


i, gen in enumerate(movies.genres): 
dummies.ix[i, gen.split('|')] = 1 


然后 ， 再 将 其 与 movies 合 并 起 来 : 


In [201]: movies windic = movies.]join(dummies.add_prefix('Genr 


In [202]: movies_ windic.ix[0] 


Out[202]: 
movie_id 

title 

genres 
Genre_Action 
Genre_Adventur 
Genre_Animatio 
Genre_Children 
Genre_Comedy 
Genre_Crime 
Genre_Document 
Genre_Drama 
Genre_Fantasy 


Genre _ Film-Noir 


Genre_Horror 
Genre_ Musical 
Genre_ Mystery 
Genre_Romance 
Genre_Sci-Fi 
Genre_Thriller 
Genre_War 
Genre_Western 
Name: 0 


1 
Toy Story (1995) 
Animation|Children's|Comedy 


0 
e © 
n 1 
'S 1 
1 
0 
ary 0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 





注意 : 对 于 很 大 的 数据 ， 用 这 种 方式 构建 多 成 
员 指 标 变 量 就 会 变 得 非常 慢 。 肯 定 需 要 编写 一 个 能 
够 利用 DataFrame 内 部 机 制 的 更 低级 的 函数 才 行 。 


一 个 对 统计 应 用 有 用 的 秘诀 是 : 结合 
get_dummies 和 诸如 cut 之 类 的 离散 化 函数 。 








In [204]: values = np.random.rand(10) 

In [205]: values 

Out[205]: 

array([ 0.9296, 0.3164, 0.1839, 0.2046, 0.5677, 0.5955, 
0.6532, 0.7489, 0.6536]) 

In [206]: bins = [0, 0.2, 0.4, 0.6, 0.8, 1] 


In [207]: pd.get_dummies(pd.cut(values, bins)) 


Out[207]: 

(0, 0.2] (0.2, 0.4] (0.4, 0.6] (0.6, 0.8] (0.8, 1] 
0 0 0 0 0 
1 0 1 0 0 - 
9 1 0 0 0 0 
3 0 1 0 0 0 
4 0 0 1 0 0 
5 0 0 1 0 0 
6 0 0 0 0 1 
7 0 0 0 . 0 
8 0 0 | 0 
9 0 0 0 





译注 5: 原文 这 里 的 意 大 很 有 问 和 员 ， 原文 说 的 古 “ 返 
加 duplicated 为 True 的 DataFrame”， 实 际 上 应 该 是 删 
除了 duplicated 为 True 的 那些 行 ， 因 此 最 终 得 到 的 
DataFrame 的 duplicated 不 可 能 再 全 有 True 了 。 

详 注 6: 也 叫 孤 立 点 或 离 群 值 。 

译注 7: 也 束 是 中 学 学 的 那个 排列 ， 只 不 过 不 是 算 





出 所 有 排列 ， 而 是 其 中 之 一 。 
译注 8:; 这 个 数据 集 不 在 ch07 中 ， 而 在 ch02 里 面 。 


字符 帅哥 作 


Python 能 够 成 为 流行 的 数据 处 理 语言 ， 部 分 原 
因 是 其 简单 易 用 的 字符 串 和 文本 处 理 功 能 。 大 部 分 
文本 运算 都 直接 做 成 了 字符 串 对 象 的 内 置 方法 。 对 
于 更 为 复杂 的 模式 匹配 和 文本 操作 ， 则 可 能 需要 用 
到 正则 表达 式 。pandas 对 此 进行 了 加 强 ， 它 使 你 能 
够 对 整 组 数据 应 用 字符 串 表 达 式 和 正则 表达 式 ， 而 
且 能 处 理 烦 人 的 缺失 数据 。 


字符 串 对 象 方法 

对 于 大 部 分 字符 串 处 理应 用 而 言 ， 内 置 的 字符 
串 方 法 已 经 能 够 满足 要 求 了 。 例 如 ， 以 逗号 分 隔 的 
字符 串 可 以 用 split 拆 分 成 数 段 : 


In [208]: val = 'a,b, guido' 





























In [209]: val.split(',') 
Out[209]: ['a', 'b', ' guido'] 


split 各 各 结合 strip《〈 用 于 修剪 空白 待 〈 包 括 换 
行 符 ) ) 一 起 使 用 : 
In [210]: pieces = [x.strip() for x in val.split(',')] 


In [211]: pieces 
Out[211]: ['a', 'b', 'guido'] 





利用 加 法 ， 可 以 将 这 些 子 字符 串 以 双 冒 号 分 陋 
局 生 2 译 闪 
符 的 形式 连接 起 来 : “ 守 ” 

In [212]: first, second, third = pieces 
In [213]: first + '::' + Second + '::' + third 
Out[213]: 'a::b::guido' 

但 这 种 方式 并 不 是 很 实用 。 一 种 更 快 更 符合 
Python 风 格 的 方式 是 ， 辣 子 答 串 ":" 的 join 方 法 传 入 
一 个 列表 或 元 组 : 

In [214]: '::'.join(pieces) 
Out[214]: 'a::b::guido' 

另 一 类 方法 关注 的 是 子 串 定 位 。 检 测 子 串 的 最 
佳 方式 是 利用 Python 的 in 关 键 字 (当然 还 可 以 使 用 
index 和 find) : 














In [215]: 'guido' in val 
Out[215]: True 


In [216]: val.index(','") 
Out[216]: 1 

In [217]: val.find(':') 
Out[217]: -1 


注意 find 和 index 的 区 别 : 如 果 找 不 到 字符 串 ， 
index 将 会 引发 一 个 异常 《而 不 是 返回 一 1) : 


In [218]: val.index(':') 


ValueError Traceback (most rece 
<ipython-input-218-280f8b2856ce> in <module>() 


--> 1 val.index(':') 
ValueError: substring not found 


此 外 还 有 一 个 count 函 数 ， 它 可 以 返回 指定 子 串 
的 出 现 次 数 : 


In [219]: val.count(',') 
Out[219]: 2 


replace 用 于 将 指定 模式 丛 换 为 为 一 个 模式 。 它 
也 党 第 用 于 删除 模式 ， 传 入 空 学 符 串 。 








In [220]: val.replace(',', '::') 
Out[220]: 'a::b:: guido' 

In [221]: val.replace(',', '') 
Out[221]: "ab guido' 


这 些 运算 大 部 分 都 能 使 用 正则 表达 式 实现 〈 马 
上 融会 看 到 ) 。 


Python 内 置 的 字符 串 方 法 如 表 7-3 所 未 。 


表 7-3: Python 内 置 的 字符 串 方法 








末 法 说 明 

count 返回 子 串 在 字符 串 中 的 出 现 次 数 ( 非 重 又 ) 

endswith、startswith ”如 果 字 符 串 以 某 个 后 缀 结尾 〈 以 某 个 前 缀 开头 ) ， 则 返回 True 

join 将 字符 串 用 作 连 接 其 他 字符 串 序 列 的 分 隔 符 

index 如 果 在 字符 串 中 找到 子 串 ， 则 返回 子 串 第 一 个 字符 所 在 的 位 
置 。 如 果 没 有 找到 ， 则 引发 ValueError。 

find 如 果 在 字符 串 中 找到 子 串 ， 则 返回 第 一 个 发 现 的 子 串 的 第 一 个 
字符 所 在 的 位 置 。 如 果 没 有 找到 ， 则 返回 一 1 

rfind 如 果 在 字符 串 中 找到 子 串 ， 则 返回 最 后 一 个 发 现 的 子 串 的 第 一 
个 字符 所 在 的 位 置 。 I 则 返回 一 1 

replace 用 另 一 个 字符 串 替 换 指定 

表 7-3: Python 内 置 的 字符 串 方 法 ( 续 ) 

廊 法 说 明 


strip、rstrip、lstrip ”去 除 空白 符 (包括 换行 符 ) 。 相 当 于 对 各 个 元 素 执 行 x.strip() 
(以 及 rstrip、lstrip) 。 宇 10 


split 通过 指定 的 分 隔 符 将 字符 串 拆 分 为 一 组 子 串 

lower、upper 分 别 将 字母 字符 转换 为 小 写 或 大 写 

ljust、 rjust 用 空格 (或 其 他 字符 ) 填充 字符 串 的 空白 侧 以 返回 符合 最 低 宽 
度 的 字符 串 





译注 10: 这 里 的 说 法 有 误 。 字 符 串 的 各 个 元 素 
个 束 是 字符 吗 ? 这 里 不 是 天 量化 的 ， 当 涉及 pandas 
中 的 这 几 个 函数 的 矢量 版 时 才 应 该 加 上 后 面 这 人 句 。 


正则 表达 式 


正则 表达 式 (通常 称 作 regex) 提供 了 一 种 灵活 
的 在 文本 中 搜索 或 下 配 字 符 串 模式 的 方式 。 正 则 表 


达 式 是 根据 正则 表达 式 语言 编写 的 字符 串 。Python 
内 置 的 re 模块 负 员 对 字符 串 应 用 正则 表达 式 。 我 将 
通过 一 些 例 子 说 明 其 使 用 方法 。 


注意 : 正则 表达 式 的 编写 技巧 可 以 自 成 一 章 “ 

于， 因此 超出 了 本 书 的 范围 。 网 上 可 以 找到 许多 

非常 不 错 的 教程 和 参考 资料 ， 比 如 Zed Shaw 的 
《Learn Regex The Hard Way》 
(http://regex.learncodethehardway.org/book/) 。 


re 模块 的 函数 可 以 分 为 三 个 大 类 : 模式 匹配 、 
替换 以 及 拆 分 。 当 然 ， 它 们 之 间 是 相辅相成 的 。 一 
个 regex 摘 述 了 需要 在 文本 中 定位 的 一 个 模式 ， 它 可 
以 用 于 许多 目的 。 我 们 先 来 看 一 个 简单 的 例子 : 假 
设 我 想 要 拆 分 一 个 字符 串 ， 分 隅 从 为 数量 不 定 的 一 
组 空白 符 ( 制 表 符 、 空 格 、 换 行 符 等 ) 。 摘 述 一 个 
或 多 个 空白 符 的 regex 古 \s+: 

















In [222]: import re 
In [223]: text = "foo bar\t baz \tqux" 
In [224]: re.split('\s+', text) 
Out[224]: ['foo', 'bar', 'baz', 'qux'] 
调用 re.split(\s+',text) 时 ， 正 则 表达 式 会 先 被 编 
译 ， 然 后 再 在 text 上 调用 其 split 方 法 。 你 可 以 用 
re.compile 自 己 编译 regex 以 得 到 一 个 可 重用 的 regex 


对 象 : 
In [225]: regex = re.compile('\s+') 


In [226]: regex.split(text) 
Out[226]: ['foo', 'bar', 'baz', 'gux'] 


如 果 只 希望 得 到 匹配 regex 的 所 有 模式 ， 则 可 以 
使 用 findall 方 法 : 


In [227]: regex.findall(text) 
Out[227]: [!' .TNE Te 1 


注音: 如 果 想 避免 正则 表达 式 中 不 需要 的 转 义 
Q) ， 则 可 以 使 用 原始 字符 串 字 面 量 如 rC:\x' (也 
可 以 编写 其 等 价 式 'C:\x') 。 


如 果 打 算 对 许多 字符 串 应 用 同一 条 正则 表达 
式 ， 强 烈 建议 通过 re.compile 创 建 regex 对 象 。 这 样 
将 可 以 节省 大 量 的 CPU 时 间 。 


match 和 search 跟 findall 功 能 类 似 。findall 返 回 的 
是 字符 串 中 所 有 的 匹配 项 ， 而 search 则 只 返回 第 一 
个 匹配 项 。match 更 加 严格 ， 它 只 [匹配 字符 串 的 首 
部 。 来 看 一 个 小 例子 ， 假 设 我 们 有 一 段 文 本 以 及 一 
条 能 够 识别 大 部 分 电子 邮件 地 址 的 正则 表达 式 : 
text = """Dave daveQ@google.conm 
Steve steve@gmail.com 


Rob rob@gmail.com 
Ryan ryan@yahoo.com 


\t'] 














pattern = r'[A-2Z0-9. %+-]+@[A-Z0-9.-]+\.[A-Z1{2,4}' 


# re .IGNORECASE 的 作用 是 使 正则 表达 式 对 大 小 写 不 敏感 
regex = re.compile(pattern, flags=re.IGNORECASE) 


对 text 使 用 findall 将 得 到 一 组 电子 邮件 地 址 : 


In [229]: regex.findall(text) 
Out[229]: ['dave@google.com', 'steveQ@gmail.com', 'rob@gmail.cc 


search 返 回 的 是 文本 中 第 一 个 电子 邮件 地 址 
(以 特殊 的 匹配 项 对 象形 式 返 回 ) 。 对 于 上 面 那个 
regex， 匹 配 项 对 象 只 能 告诉 我 们 模式 在 原 字 符 串 中 
的 起 始 和 结束 位 置 : 


In [230]: m = regex.search(text) 








In [231]: m 
Out[231]: <_sre.SRE Match at Ox10a05de00> 


In [232]: text[m.start():m.end()] 
Out[232]: 'dave@google.com' 


regex.match 则 将 返回 None， 因 为 它 只 匹配 出 现 
在 字符 串 开 头 的 模式 : 


In [233]: print regex.match(text) 
None 


另外 还 有 一 个 sub 方 法 ， 它 会 将 匹配 到 的 模式 
答 换 为 指定 字符 串 ， 并 返回 所 得 到 的 新 字符 串 : 


In [234]: print regex.sub('REDACTED', text) 








Dave REDACTED 
Steve REDACTED 
Rob REDACTED 

Ryan REDACTED 


假设 你 不 仅 想 要 找 出 电子 邮件 地 址 ， 还 想 将 各 
个 地 址 分 成 3 个 部 分 : 用 户 名 、 域 名 以 及 域 后 绥 。 
要 实现 此 功能 ， 只 需 将 每 分 段 的 模式 的 各 部 分 用 
括号 包 起 来 即 可 : 


In [235]: pattern = rr([A-Z0-9._ %+-]+)@([A-Z0-9.-]j+)N.([A-Z]{2 


In [236]: regex = re.compile(pattern, flags=re.IGNORECASE) 


由 这 种 正则 表达 式 所 产生 的 匹配 项 对 象 ， 可 以 
通过 其 groups 方 法 返回 一 个 由 模式 各 段 组 成 的 元 
组 : 


In [237]: m = regex.match('wesmQ@bright.net') 


In [238]: m.groups() 
Out[238]: ('wesm', 'bright', "net ') 


对 于 带 有 分 组 功能 的 模式 ，findall 会 返回 一 人 
元 组 列表 : 


In [239]: regex.findall(text) 

Out[239] : 

[('dave', 'google', "com ')， 
('steve', 'gmail', 'com'), 
('rob', 'gmail', 'com'), 
('ryan', 'yahoo', 'com')] 


sub 还 能 通过 诸如 \1、\2 之 类 的 特殊 符号 访问 各 


匹配 项 中 的 分 组 : 


In [240]: print regex.sub(r'Username: \1, Domain: \2, Suffix: 
Dave Username: dave, Domain: google, Suffix: com 

Steve Username: steve, Domain: gmail, Suffix: com 

Rob Username: rob, Domain: gmail, Suffix: com 

Ryan Username: ryan, Domain: yahoo, Suffix: com 


Python 中 还 有 许多 的 正则 表达 式 ， 但 大 部 分 部 
超出 了 本 书 的 范围 。 为 了 给 你 一 后 感觉 ， 我 对 上 面 
那个 电子 邮件 正则 表达 陈 做 一 点 小 变动 : 为 各 个 匹 
配 分 组 加 上 一 个 名 称 。 


regex = re.compile(r™""" 
(?P<username>[A-20-9._ %+-]+) 


(?P<domain>[A-20-9.-]+) 
(2?P<suffix>[A-Z]{2,4})""", flags=re.IGNORECASE|re.VERBOS 


由 这 种 正则 表达 式 所 产生 的 匹配 项 对 象 可 以 得 
到 一 个 简单 易 用 的 带 有 分 组 名 称 的 字典 : 


In [242]: m = regex.match('wesmQ@bright.net') 





In [243]: m.groupdict() 


Out[243]: {'domain': 'bright', 'suffix': 'net', 'username': 


前 面 所 及 的 正则 表达 式 的 方法 与 说 明 如 表 7-4 
所 示 。 


表 7-4: 正则 表达 式 方 法 

方法 说 明 

findall、finditer ”返回 字符 串 中 所 有 的 非 重 又 匹配 模式 。findall 返 回 的 是 由 所 有 模式 
组 成 的 列表 ， 而 finditer 则 通过 一 个 迭代 器 逐个 返回 


match 从 字符 串 起 始 位 置 匹 配 模式 ， 还 可 以 对 模式 各 部 分 进行 分 组 。 如 果 
匹配 到 模式 ， 则 返回 一 个 匹配 项 对 象 ， 否 则 返回 None 

search 扫描 整个 字符 串 以 匹配 模式 。 如 果 找 到 则 返回 一 个 匹配 项 对 象 。 跟 
match 不 同 ， 其 匹配 项 可 以 位 于 字符 串 的 任意 位 置 ， 而 不 仅仅 是 起 
始 处 

split Eee 

sub、subn 字符 串 中 所 有 的 (sub) 或 前 n 个 (subn) 模式 替换 为 指定 表达 


Er 
译注 12， 这 个 表达 式 要 么 是 字符 串 要 么 是 函数 
返回 值 。 
pandas 中 矢量 化 的 字符 串 函 数 


清理 待 分 析 的 散乱 数据 时 ， 常 常 需要 做 一 些 字 
符 串 规整 化 工作 。 更 为 复杂 的 情况 是 ， 合 有 字符 串 
的 列 有 时 还 含有 缺失 数据 : 


In [244]: data = {'Dave': 'daveQ@google.com', 'Steve': "Steve@d 











'Rob': 'rob@gmail.com', 'Wes': np.nan} 
In [245]: data = Series(data) 
In [246]: data 
Out[246] : 
Dave dave@google.com 
Rob rob@gmail.com 
Steve steveQ@gmail.com 


Wes NaN 


In [247]: data.isnull() 


Out[247] : 

Dave False 
Rob False 
Steve False 
Wes True 





通过 data.map， 上 所 有 字符 串 和 正则 表达 式 方 法 
都 能 被 应 用 于 〈 传 入 lambda 表 达 式 或 其 他 函数 ) 各 
个 值 ， 但 是 如 果 存 在 NA 就 会 报错 。 为 了 解决 这 个 
问 Series 有 一 一 些 能 够 跳 过 NA 值 的 字符 串 操 作 方 
人 过 Series 的 tc 属 性 即 可 访问 这 些 方法 。 例 
如 ， es 以 通过 str.contains 检 查 各 个 电子 邮件 地 
址 是 否 含 有 "gmail": 








In [248]: data.str.contains('gmail') 


Out[248]: 

Dave False 
Rob True 
Steve True 
Wes NaN 


这 里 也 可 以 使 用 正则 表达 式 ， 还 可 以 加 上 任意 
re 选项 (如 IGNORECASE): 


In [249]: pattern 
Out[249]: '([A-Z0-9. %+-]+)@([A-Z0-9.-]+)\\.([A-Z]{2,4})' 


In [250]: data.str.findall(pattern, flags=re.IGNORECASE) 
Out[250]: 


Dave [('dave', 'google', 'com')] 
Rob [('rob', 'gmail', 'com')] 
Steve [('steve', 'gmail', 'com’')] 


Wes NaN 








有 两 个 办 法 可 以 实现 天 量化 的 元 素 获 取 操 作 : 
要 么 使 用 str.get， 要 么 在 str 属 性 上 使 用 索引 。 


In [251]: matches = data.str.match(pattern, flags=re.IGNORECAS 


In [252]: matches 


Out[252] : 

Dave ('dave', 'google', 'com') 
Rob ('rob', 'gmail', "com ') 
Steve ('steve', 'gmail', 'com') 
Wes NaN 


In [253]: matches.str.get(1) 
Out[253]: 


Dave google 

Rob gmail 

Steve gmail 

Wes NaN 

In [254]: matches.str[0] 
Out[254] : 

Dave dave 

Rob rob 

Steve steve 

Wes NaN 





你 可 以 利用 下 和 面 这 种 代码 对 字符 串 进行 子 串 截 
取 : 


In [255]: data.str[:5] 


Out[255]: 

Dave daveQ@ 
Rob rob@g 
Steve steve 
Wes NaN 


表 7-5 介 绍 了 矢量 化 的 字符 串 方 法 。 


表 7-5: 矢量 化 的 字符 串 方法 


方法 说 明 

cat 实现 元 素 级 的 字符 串 连 接 操 作 ， 可 指定 分 隔 符 

contains 返回 表示 各 字符 串 是 否 含 有 指定 模式 的 布尔 型 数组 

count 模式 的 出 现 次 数 

endswith 、startswith 相当 于 对 各 个 元 素 执行 xendswith(pattern) 或 x.startswith(pattern) 
findall 计算 各 字符 串 的 模式 列表 

get 获取 各 元 素 的 第 i 个 字符 

join 根据 指定 的 分 隔 符 将 Series 中 各 元 素 的 字符 串 连 接 起 来 

len 计算 各 字符 串 的 长 度 

lower、upper 转换 大 小 写 。 相 当 于 对 各 个 元 素 执行 x.lower() 或 x.upper() 
match 根据 指定 的 正则 表达 式 对 各 个 元 素 执 行 re.match 

pad 在 字符 串 的 左边 、 右 边 或 左右 两 边 添加 空白 符 

center 相当 于 pad(side='both') 

repeat 重复 值 。 例 如 ，s.str.repeat(3) 相 当 于 对 各 个 字符 捉 执 行 x * 3 
replace 用 指定 字符 串 替换 找到 的 模式 

slice 对 Series 中 的 各 个 字符 串 进行 子 串 截取 

split 根据 分 隔 符 或 正则 表达 式 对 字符 串 进 行 拆 分 


strip 、rstrip、lstrip ”去 除 空白 符 ， 包 括 换 行 符 。 相 当 于 对 各 个 元 素 执行 x.strip()、 
x.rstrip()、x.lstrip() 





译注 9， 其 实 什么 分 隔 符 都 行 ， 原 文 有 歧义 。 
译注 11， 别 说 一 章 ， 目 前 市 面 上 专门 介绍 正则 表达 
式 的 书 非常 多 。 


示例 : USDA 食 品 数据 库 


美国 农业 部 CUSDA) 制作 了 一 份 有 关 食 物 营 
养 信息 的 数据 库 。Ashley Williams (一 名 来 日 瑞 国 
的 技术 牛人 ) 制作 了 该 数据 的 JSON 版 
(http://ashleyw.co.uk/project/food-nutrient- 
database )。 其 中 的 记录 如 下 所 示 : 








"id": 21441, 

"description": "KENTUCKY FRIED CHICKEN, Fried Chicken, EXTRA 
"tags": ["KFC"], 

"manufacturer": "Kentucky Fried Chicken", 

"group": "Fast Foods", 

"portions": [ 


"amount": 1, 


"unNit": "wing, with skin", 
"grams": 68.0 


| 二 


汉 
"nutrients": |[ 
{ 

"value": 20.8, 
"UnNits": "g", 
"description": "Protein", 
"group": "Composition" 

] 





每 种 食物 部 市 有 夯 干 标识 性 属性 以 及 两 个 有 关 


营养 成 分 和 分 量 的 列表 。 这 种 形式 的 数据 不 是 很 适 
合 分 析 工 作 ， 因 此 我 们 需要 做 一 些 规整 化 以 使 其 具 
有 更 好 用 的 形式 。 


从 上 面 列举 的 那个 网 址 下 载 并 解压 数据 之 后 ， 
你 可 以 用 任何 喜欢 的 JSON 库 将 其 加 载 到 Python 中 。 
我 用 的 是 Python 内 置 的 json 模 块 : 


In [256]: import json 





In [257]: db = json.load(open('cho7/foods-2011-10-03.json')) 


In [258]: len(db) 
Out[258]: 6636 


db 中 的 每 个 条 目 都 是 一 个 含有 某 种 食物 全 部 数 
据 的 字典 。nutrients 字 段 是 一 个 字典 列表 ， 其 中 的 
每 个 字典 对 应 一 种 营养 成 分 : 


In [259]: db[0].keys() 

Out[259 ] : 

[u'portions ' ， 

"description '， 

'tags', 

'nutrients', 

group 

'id', 
u'manufacturer'] 

In [260]: db[0]['nutrients'][0] 

Out[260]: 

{Uu'description': u'Protein', 
u'group': u'Composition', 
uU'units': u'g', 

U' Value': 25.18} 


GS 


U 
U 
U 
U 


In [261]: nutrients = DataFrame(db[0]['nutrients']) 


In [262]: nutrients[:7] 


Out[262] : 

description group units value 
0 Protein Composition g 25.18 
1 Total lipid (fat) Composition g 29.20 
2 Carbohydrate, by difference Composition g 3.06 
3 Ash Other g 3.28 
4 Energy Energy kcal 376.00 
5 Water Composition g 39.28 
6 Energy Energy kJ 1573.00 


在 将 字典 列表 转换 为 DataFrame 时 ， 可 以 只 抽 
取 其 中 的 一 部 分 字段 。 这 里 ， 我 们 将 取出 食物 的 名 
称 、 分 类 、 编 号 以 及 制造 商 等 信息 : 


In [263]: info_keys = ['description', 'group', 'id', manufact 
In [264]: info = DataFrame(db, columns=info_keys) 


In [265]: info[:5] 
Out[265]: 

description group 
0 Cheese, caraway Dairy and Egg Products 
1 Cheese, cheddar Dairy and Egg Products 
2 Cheese, edam Dairy and Egg Products 
3 Cheese, feta Dairy and Egg Products 
4 Cheese, mozzarella, part skim milk Dairy and Egg Products 


In [266]: info 

Out[266]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 6636 entries, © to 6635 
Data columns: 


description 6636 non-null values 
group 6636 non-null values 
id 6636 non-null values 
manufacturer 5195 non-null values 


dtypes: int64(1), object(3) 


通过 value_counts， 你 可 以 查看 食物 类 别 的 分 


In [267]: pd.value counts(info.group)[:10] 


Out[267]: 

Vegetables and Vegetable Products 812 
Beef Products 618 
Baked Products 496 
Breakfast Cereals 403 
Legumes and Legume Products 365 
Fast Foods 365 
Lamb, Veal, and Game Products 345 
Sweets 341 
Pork Products 328 
Fruits and Fruit Juices 328 


现在 ， 为 了 对 全 部 营养 数据 做 一 些 分 析 ， 最 简 
单 的 办 法 是 将 所 有 食物 的 营养 成 分 整合 到 一 个 大 表 
中 。 我 们 分 几 个 步骤 来 实现 该 目的 。 首 先 ， 将 各 食 
物 的 营养 成 分 列表 转换 为 一 个 DataFrame， 并 添加 
一 个 表示 编号 的 列 ， 然 后 将 该 DataFrame 添 加 到 一 
个 列表 中 。 最 后 通过 concat 将 这 些 东 西 连 接 起 来 就 
可 以 了 : 


nutrients = [] 





for rec in db: 
fnuts = DataFrame(rec['nutrients']) 
fnuts['id'] = rec['id'] 
nutrients.append(fnuts) 


nutrients = pd.concat(nutrients, ignore_index=True) 


如 果 一 切 顺 利 的 话 ，nutrients 应 该 是 下 面 这 样 
的 : 


In [269]: nutrients 

Out[269]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 389355 entries, © to 389354 
Data columns: 


description 389355 non-null values 
group 389355 non-null values 
units 389355 non-null values 
value 389355 non-null values 
id 389355 non-null values 


dtypes: float64(1), int64(1), object(3) 


我 发 现 这 个 DataFrame 中 无 论 如 何 都 会 有 一 些 
重复 项 ， 所 以 直接 丢弃 就 可 以 了 


In [270]: nutrients.duplicated().sum() 
Out[270]: 14179 





In [271]: nutrients = nutrients.drop_duplicates() 


由 于 两 个 DataFrame 对 象 中 都 
有 "group" 和 "description"， 所 以 为 了 明确 到 底 谁 是 
谁 ， 我 们 需要 对 它们 进行 重 命名 : 


In [272]: col mapping = {'description' : 'food', 
on group" : 'fgroup'} 





In [273]: info = info.rename(columns=col mapping, copy=False) 


In [274]: info 

Out[274]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 6636 entries, © to 6635 
Data columns: 


food 6636 non-null values 
fgroup 6636 non-null values 
id 6636 non-null values 
manufacturer 5195 non-null values 


dtypes: int64(1), object(3) 


In [275]: col mapping = {'description' : nutrient '， 
'group' : 'nutgroup'} 


In [276]: nutrients = nutrients.rename(columns=col mapping, cc 


In [277]: nutrients 

Out[277]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 375176 entries, © to 389354 
Data columns: 


nutrient 375176 non-null values 
nutgroup 375176 non-null values 
units 375176 non-null values 
value 375176 non-null values 
id 375176 non-null values 


dtypes: float64(1), int64(1), object(3) 


做 完 这 些 事情 之 后 ， 就 可 以 将 info 跟 nutrients 合 
并 起 来 : 


In [278]: ndata = pd.merge(nutrients, info, on='id', how='oute 


In [279]: ndata 

Out[279] : 

<class 'pandas.core.frame.DataFrame '> 
Int64Index: 375176 entries, © to 375175 
Data columns : 


nutrient 375176 non-null values 
nutgroup 375176 non-null values 
units 375176 non-null values 
value 375176 non-null values 
id 375176 non-null values 
food 375176 non-null values 
fgroup 375176 non-null values 
manufacturer 293054 non-null values 


dtypes: float64(1), int64(1), object(6) 


In [280]: ndata.ix[30000] 

Out[280]: 

nutrient Folic acid 
nutgroup Vitamins 


units mcg 


value 0 
id 5658 
food Ostrich, top loin, cooked 
fgroup Poultry Products 
manufacturer 
Name: 30000 


接 下 来 的 两 草 中 将 介绍 切片 和 切 块 、 聚 合 、 图 
形 化 方面 的 工具 ， 所 以 在 你 掌握 了 那些 方法 之 后 可 
以 再 用 这 个 数据 集 来 练 练 手 。 比 如 说 ， 我 们 可 以 根 
据 食 物 分 类 和 营养 类 型 画 出 一 张 中 位 值 图 (如 图 7- 
1 所 示 ) : 
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图 7-1: 根据 营养 分 类 得 出 的 锌 中 位 值 


In [281]: result = ndata.groupby(['nutrient', ‘'fgroup'])['valvu 


In [282]: result['Zinc, Zn'].order().plot(kind='barh') 


只 要 稍微 动 一 动脑 子 ， 束 可 以 友 现 各 营养 成 分 
最 为 丰富 的 食物 是 什么 了 : 





by_nutrient = ndata.groupby(['nutgroup', "nutrient ']) 


get_maximum 
get_minimum 


= lambda x: x.xs(x.value.idxmax()) 
= lambda x: x.xs(x.value.idxmin()) 


max_foods = by_nutrient.apply(get_ maximum)[['value', 'food']] 


# 让 food 小 一 点 
max_foods.food = max_foods.food.str[:50] 


由 于 得 到 的 DataFrame 很 大 ， 所 以 不 方便 在 书 
里 面 全 部 打印 出 来 。 这 里 只 给 出 "Amino Acids" 营 养 


分 组 : 


In [284]: max_foods.ix['Amino Acids']['food'] 





Out[284]: 

nutrient 

Alanine Gelatins, dry powder, unswee 
Arginine Seeds, sesame flour, lc 
Aspartic acid Soy protein is 
Cystine Seeds, cottonseed flour, low fat (gland 
Glutamic acid Soy protein is 
Glycine Gelatins, dry powder, unswee 
Histidine Whale, beluga, meat, dried (Alaska Na 
Hydroxyproline KENTUCKY FRIED CHICKEN, Fried Chicken, ORIGI 
Isoleucine Soy protein isolate, PROTEIN TECHNOLOGIES IN 
Leucine Soy protein isolate, PROTEIN TECHNOLOGIES IN 
Lysine Seal, bearded (Oogruk), meat, dried (Alaska 
Methionine Fish, cod, Atlantic, dried and s 
Phenylalanine Soy protein isolate, PROTEIN TECHNOLOGIES IN 
Proline Gelatins, dry powder, unswee 
Serine Soy protein isolate, PROTEIN TECHNOLOGIES IN 
Threonine Soy protein isolate, PROTEIN TECHNOLOGIES IN 
Tryptophan Sea lion, Steller, meat with fat (Alaska Na 
Tyrosine Soy protein isolate, PROTEIN TECHNOLOGIES IN 
Valine Soy protein isolate, PROTEIN TECHNOLOGIES IN 


Name: food 


第 8 革 ”绘图 和 可 视 化 


绘图 是 数据 分 析 工 作 中 最 重要 的 任务 之 一 ， 是 
探索 过 程 的 一 部 分 ， 例 如 ， 帮 助 我 们 找 出 寞 常 值 、 
必要 的 数据 转换 、 得 出 有 关 模 型 的 idea 等 。 此 外 ， 
还 可 以 利用 诸如 d3.js (http://d3js.org/) 之 类 的 工具 
为 Web 应 用 构建 交互 式 图 像 。Python 有 许多 可 视 化 
工具 《参见 本 和 章 末 尾 ) ， 但 是 我 主要 讲解 
matplotlib (http://matplotlib.sourceforge.net) 。 


matplotlib 是 一 个 用 于 创建 出 版 质量 图 表 的 加 面 
绘图 包 (主要 是 2D 方 面 ) 。 访 项 目 是 由 John Hunter 
于 2002 年 启动 的 ， 其 目的 是 为 Python 构 建 一 个 
MATLAB 式 的 绘图 接口 。 从 那 时 起 ，John Hunter、 
Fernando Pérez 〈IPython 的 创始 人 ) 等 许多 人 吏 一 
起 合作 ， 共 同 致力 于 将 IPython 和 matplotlib 结 合 起 来 
以 提供 一 种 功能 丰富 且 高 效 的 科学 计算 环境 。 如 果 
结合 使 用 一 种 GUI 工 具 包 (如 IPython) ，matplotlib 
还 具有 诸如 缩放 和 平移 等 交互 功能 。 它 不 仅 文 持 各 
种 操作 系统 上 许多 不 同 的 GUI 后 端 ， 而 且 还 能 将 图 
片 寻 出 为 各 种 第 见 的 天 量 (vector) 和 光栅 

(raster) 图 : PDF、SVG、JPG、PNG、BMP、 
GIF 等 。 本 书 中 的 大 部 分 图 形 都 是 用 它 生 成 的 。 


matplotlib 还 有 许多 插件 工具 集 ， 如 用 于 3D 图 























形 的 mplot3d 以 及 用 于 地 图 和 投影 的 basemap 。 我 将 
在 本 章 末 尾 介绍 一 个 利用 basemap 在 地 图 上 绘制 数 
据 和 读 取 shapefiles 的 例子 。 


要 使 用 本 间 中 的 代码 示例 ， 请 确保 你 的 IPython 
是 以 Pylab 模 式 启 动 的 (ipython --pylab) ， 或 通 
过 %gui 魔 术 命 令 令 打 开 了 GUI 事 件 循环 集成 。 











matplotlib API 入 门 


使 用 matplotlib 的 办 法 有 很 多 种 ， 最 第 用 的 方式 
是 Pylab 模 式 的 IPython (ipython --pylab) 。 这 样 会 
将 IPython 配 置 为 使 用 你 所 指定 的 matplotlib GUI 后 
六 (Tk、wxPython、PyQt、Mac OS X native、 
GTK) 。 对 大 部 分 用 户 而 言 ， 默 认 的 后 问 吏 已 经 够 
用 了 。Pylab 模 式 还 会 同 IPython 引 入 一 大 堆 模 块 和 
函数 以 提供 一 种 更 接近 于 MATLAB 的 界面 〈 见 图 8- 
绘制 一 张 简单 的 图 表 即 可 测试 是 否 一 切 准 备 
以 [组 : 


plot(np.arange(10)) 
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图 8-1: 一 张 比 较 复 杂 的 matplotlib 金 融 曲 线 图 


如 果 一 切 都 没有 问题 ， 束 会 弹出 一 个 新 窗口 ， 
其 中 绘制 的 是 一 条 直线 。 你 可 以 用 鼠标 或 输入 
close() 来 关闭 它 。matplotlib API 函 数 〈 如 plot 和 
close) 都 位 于 matplotlib.pyplot 模 块 中 ， 其 通常 的 引 
入 约定 是 : 


import matplotlib.pyplot as plt 


虽然 pandas 的 绘图 函数 〈 稍 后 介绍 ) 能 够 处 理 
许多 普通 的 绘图 任务 ， 但 如 条 需要 自 定 义 一 些 高 级 
功能 的 话 束 必须 学 习 matplotlib API。 


注意 : 虽然 本 书 没有 详细 地 讨论 matplotlib 的 
各 种 功能 ， 但 足以 将 你 引入 门 。matplotib 的 示例 库 
和 文档 是 成 为 绘图 高 手 的 最 佳 学 习 资 源 。 











Figure 和 Subplot 


matplotlib 的 图 像 都 位 于 Figure 对 象 中 。 你 可 以 
用 plt.figure 创 建 一 个 新 的 Figure: 


In [13]: fig = plt.figure() 


这 时 会 弹出 一 个 空 窗 口 。plt.figure 有 一 些 选 
项 ， 特 别 是 figsize， 它 用 于 确保 当 图 卢 保 存 到 磁盘 
时 具有 一 定 的 大 小 和 纵横 比 。matplotlib 中 的 Figure 
还 文 持 一 种 MATLAB 式 的 编写 架构 “例如 





plt.figure(2)) 。 通 过 plt.gcfO 即 可 得 到 当前 Figure 的 
中央 


不 能 通过 空 Figure 绘 图 。 必 须 用 add_subplot 创 
建 一 个 或 多 个 subplot 才 行 : 


In [14]: ax1i = fig.add_ subplot(2, 2, 1) 


这 条 代码 的 意思 是 : 图 像 应 该 是 2x2 的 ， 2 
前 选中 的 是 4 个 subplot 中 的 第 一 个 (编号 从 1 开 
始 ) 。 如 果 再 把 后 面 两 个 subplot 也 创建 出 来 ， 最 终 
得 到 的 图 像 如 图 8-2 所 示 。 


In [15]: ax2 = fig.add_ subplot(2, 2, 2) 

















In [16]: ax3 = fig.add_ subplot(2, 2, 3) 





1.0 1.0 
0.8r 0.8 
0.6r 0.6 
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0.2 上 0.2 




















图 8-2: 市 有 三 个 subplot 的 Figure 


如 果 这 时 发 出 一 条 绘图 命令 〈 如 
plt.plot([1.5,3.5,-2,1.6])〉 ，matplotlib 就 会 在 最 后 一 
个 用 过 的 subplot《〈 如 果 没 有 则 创建 一 个 ) 上 进行 绘 
制 。 因 此 ， 如 果 我 们 执行 下 列 命令 ， 你 丈 会 得 到 如 
图 8-3 所 示 的 结果 : 


In [17]: from numpy.random import randn 


In [18]: plt.plot(randn(50).cumsum(), 'k--') 
































图 8-3: 绘制 一 次 之 后 的 图 像 


"kk--" 是 一 个 线 型 选项 ， 用 于 告诉 matplotlib 绘 制 | 
黑色 虚线 图 。 上 而 那些 返回 的 对 
象 是 AxesSubplot 对 象 ， 直 接 调用 它们 的 实例 方法 就 
可 以 在 其 他 空 看 的 格子 里 面 画 图 了 ， 如 图 8-4 所 
pa 








In [19]: _ = axi.hist(randn(100), bins=20, color='k', alpha=0. 
In [20]: 


ax2.scatter(np.arange(30), np.arange(30) + 3 * randn( 
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图 8-4: 继续 绘制 两 次 之 后 的 图 像 


你 可 以 在 matplotlib 的 文档 中 找到 各 种 图 表 类 
型 。 由 于 根据 特定 布局 创建 Figure 和 subplot 是 一 件 
非常 常见 的 任务 ， 于 是 便 出 现 了 一 个 更 为 方便 的 方 
法 (plt.subplots〉， 它 可 以 创建 一 个 新 的 Figure， 并 
返回 一 个 含有 已 创建 的 subplot 对 象 的 NumPy 数 组 : 


In [22]: fig, axes = plt.subplots(2, 3) 


In [23]: axes 

Out [23]: 

array([[Axes(0.125,0.536364;0.227941x0.363636)，, 
Axes (0.398529,0.536364;0.227941x0.363636)， 
Axes (0.672059,0.536364;0.227941x0.363636)]，, 
[Axes (0.125,0.1;0.227941x0.363636), 
Axes (0.398529,0.1;0.227941x0.363636)，, 


Axes (0.672059,0.1;0.227941x0.363636)]], dtype=object) 


这 是 非常 实用 的 ， 因 为 可 以 轻松 地 对 axes 数 组 
进行 宗 引 ， 束 好 像 是 一 个 二 维 数组 一 样 ， 例 如 ， 
axes[0,1]。 你 还 可 以 通过 sharex 和 sharey 指 定 subplot 
应 该 具有 相同 的 X 轴 或 Y 轴 。 在 比较 相同 范围 的 数 
据 时 》 这 也 是 非 重 弟 实用 的 》 含 则 》 matplotlib 会 目 动 
顷 放 各 图 表 的 界限 。 有 关 该 方法 的 更 多 信息 ， 请 参 
见 表 8-1。 











表 8-1: pyplot.subplots 的 选项 


参数 说 明 

nrows subplot 的 行 数 

ncols subplot 的 列 数 

sharex 所 有 subplot 应 该 使 用 相同 的 X 轴 刻度 (调节 xlim 将 会 影响 所 有 subplot) 
sharey 所 有 subplot 应 该 使 用 相同 的 Y 轴 刻度 (调节 ylim 将 会 影响 所 有 subplot) 
subplot_kw 用 于 创建 各 subplot 的 关键 字 字 上 典 

*xfig_kw 创建 ffgure 时 的 其 他 关键 字 ， 如 plt.subplots(2,2,figsize=(8,6)) 





调整 subplot 周 围 的 间距 


默认 情况 下 ，matplotlib 会 在 subplot 外 围 留 下 一 
定 的 边 距 ， 并 在 subplot 之 间 留 下 一 定 的 间距 。 间 距 
跟 图 像 的 高 度 和 宽度 有 关 ， 因 此 ， 如 果 你 调整 了 图 
Ca ae 是 编程 还 是 手工 )， 间 距 也 会 自动 调 

整 。 利 用 Figure 的 subplots_adjust 方 法 可 以 轻而易举 
os 此 外 ， 它 也 是 个 顶级 函数 : 











subplots_ adjust(left=None, bottom=None, right=None, top=None, 
hspace=None) 





wspace 和 hspace 用 于 控制 宽度 和 高 度 的 百 分 
的 例子 ， 其 中 我 将 间距 收缩 到 了 0《〈 如 几 8-5 上 所 
示 ) : 








fig, axes = plt.subplots(2, 2, sharex=True, sharey=True) 
for i in range(2): 
for j in range(2): 
axes[i, j].hist(randn(500), bins=50, color='k', alpha= 
plt.subplots _ adjust(wspace=0, hspace=0) 
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图 8-5: 各 subplot 之 间 没 有 间距 


不 难看 出 ， 其 中 的 轴 标 签 重 对 了 。matplotlib 不 
会 检查 标签 是 否 午 营 ， 所 以 对 于 这 种 情况 ， 你 只 能 
目 己 设 定 刻 度 位 置 和 刻度 标签 。 后 面 几 节 将 会 详细 
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颜色 、 标 记 和 线 型 


matplotlib 的 plot 函 数 接受 一 组 X 和 Y 坐 标 ， 还 可 
以 接受 一 个 表示 颜色 和 线 型 的 字符 串 缩 写 。 例 如 ， 
要 根据 x 和 y 绘 制 绿色 虚线 ， 你 可 以 执行 如 下 代码 : 


ax.plot(x, y， 'g--') 


这 种 在 一 个 字符 串 中 指定 颜色 和 线 型 的 方式 非 
党 方便 。 通 过 下 面 这 种 更 为 明确 的 方式 也 能 得 到 同 
样 的 效果 : 


ax.plot(x, y, linestyle='--', color='"'g') 


第 用 的 其 色 都 有 一 个 缩写 词 ， 要 使 用 其 他 任意 
颜色 则 可 以 通过 指定 其 RGB 值 的 形式 使 用 《〈 例 
如 ，#CECECE') 。 完 整 的 linestyle 列 表 请 参见 plot 
的 文档 。 


线 型 图 还 可 以 加 上 一 些 标 记 (marker) ， 以 强 
调 实 际 的 数据 点 。 由 于 matplotlib 创 建 的 是 连续 的 线 
型 图 (点 与 点 之 间 插 值 ) ， 因 此 有 时 可 能 不 太 容 易 
看 出 真实 数据 点 的 位 置 。 标 记 也 可 以 放 到 格式 字符 
但 标记 类 型 和 线 型 必须 放 在 颜色 后 面 〈 如 图 
8-6 所 示 ) : 














In [28]: 


plt.plot(randn(30).cumsum(), 


'ko--') 
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图 8-6: 禹 有 标记 有 的 线 型 图 示例 


还 可 以 将 其 写成 更 为 明确 的 形式 : 


plot(randn(30).cumsum(), color='k', linestyle='dashed', marker 


在 线 型 图 中 ， 非 实际 数据 点 时 


路 认 是 按 线 性 方式 


插值 的 。 可 以 通过 drawstyle 选 项 修改 : 


In [30]: 


In [31] : 
Out[31] : 


In [32]: 
Out[32] : 


In [33] : 


data = randn(30).cumsum() 


plt.plot(data, 'k--', label='Default') 
[<matplotlib.1lines.Line2D at Ox461cdd0>] 


plt.plot(data, 'k-', drawstyle='steps-post', label='s 
[<matplotlib.1lines.Line2D at Ox461f350>] 


plt.legend(loc='best') 


刻度 、 标 签 和 图 例 


对 于 大 多 数 的 图 表 装 饰 项 ， 其 主要 实现 方式 有 
二 : 使 用 过 程 型 的 pyplot 接 口 (MATLAB 用 户 非 常 
熟悉 ) 以 及 更 为 面向 对 象 的 原生 matplotlib API。 


pyplot 接 口 的 设计 目的 束 是 交互 式 使 用 ， 含 有 
诸如 xlim、xticks 和 xticklabels 之 类 的 方法 。 它 们 分 
别 控制 图 表 的 范围 、 刻 度 位 置 、 刻 度 标 签 等 。 其 使 
用 方式 有 以 下 两 种 : 


.调用 时 不 带 参 数 ， 则 返回 当前 的 参数 值 
“。 例 如 ，plt.xlim0 返 回 当前 的 X 轴 绘图 范围 。 


-调用 时 和 市 参数 ， 则 设置 参数 值 。 因 此 ， 
plt.xlim([0,10]) 会 将 X 轴 的 范围 设置 为 0 到 10。 
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图 8-7: 不 同 drawstyle 选 项 的 线 型 图 


所 有 这 些 方法 都 是 对 当前 或 最 近 创 建 的 
AxesSubplot 起 作用 的 。 它 们 各 目 对 应 subplot 对 象 上 
ax.set_xlim。 我 更 喜欢 使 用 subplot 的 实例 方法 ( 
为 我 喜欢 明确 的 事情 ， 而 且 在 处 理 多 个 subplot 时 这 
样 也 更 清楚 一 些 ) 。 当 然 你 完全 可 以 选择 自己 党 得 
方便 的 那个 。 








设置 标题 、 轴 标签 、 刻 度 以 及 刻度 标签 


为 了 说 明 轴 的 目 定 义 ， 我 将 创建 一 个 简单 的 图 
像 并 绘制 一 段 随机 漫步 〈 如 图 8-8 所 示 ) : 


In [34]: fig = plt.figure(); ax = fig.add_ subplot(1，1，1) 


In [35]: ax,.plot(randn(1000) .cumsum( ) ) 
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图 8-8: 用 于 演示 xticks 的 简单 线 型 图 
要 修改 X 轴 的 刻度 ， 最 简单 的 办 法 是 使 用 


set_xticks 和 set_xticklabels。 前 者 告诉 matplotlib 要 将 
刻度 放 在 数据 范围 中 的 哪些 位 置 ， 默 认 情 况 下 ， 这 
些 位 置 也 瓯 是 刻度 标签 。 但 我 们 可 以 通过 
set_xticklabels 将 任何 其 他 的 值 用 作 标 签 : 


In [36]: ticks = ax.set_ xticks([0, 250, 500, 750, 1000]) 














In [37]: labels = ax.set xticklabels(['one', 'two', 'three’', 
Pe rotation=30, fontsize='s 


最 后 ， 再 用 set_xlabel 为 X 轴 设置 一 个 名 称 ， 并 


用 set_ title 设置 一 个 标题 : 


In [38]: ax,Set_title('My first matplotlib plot') 
Out[38]: <matplotlib.text.Text at Ox7f9190912850> 


In [39]: ax.set xlabel('Stages') 


终结 9 所 示 。Y 轴 的 修改 方式 与 此 类 
需 将 上 述 代 码 中 的 x 蔡 换 为 y 即 可 。 





最 
内 


似 ， 
压 加 图 例 





图 例 〈legend) 是 男 一 种 用 于 标识 图 表 元 系 的 
重要 工具 。 添 加 图 例 的 方式 有 二 。 最 简单 的 是 在 添 
加 subplot 的 时 候 传 入 label 参 数 : 


In [40]: fig = plt.figure(); ax = fig.add subplot(1, 1, 1) 








In [41]: ax.plot(randn(1000).cumsum(), 'k', label='one') 
Out[41]: [<matplotlib.1lines.Line2D at Ox4720a90>|] 





My first matplotlib plot 











图 8-9: 用 于 演示 xticks 的 简单 线 型 图 
In [42]: ax.plot(randn(1000).cumsum(), 'k--', label="'two') 
Out[42]: [<matplot1lib.1lines.Line2D at Ox4720f90>] 


In [43]: ax.plot(randn(1000).cumsum(), 'k.', label='three') 
Out[43]: [<matplotlib.1lines.Line2D at Ox4723550>] 


在 此 之 后 ， 你 可 以 调用 ax.legend0O) 或 plt.legend() 
来 自动 创建 图 例 : 


In [44]: ax.legend(loc='best') 





如 图 8-10 所 示 。loc 告 诉 matplotlib 要 将 图 例 放 在 
哪 。 如 采 你 不 是 吹 毛 求 钼 的 话 ，"beat" 是 不 错 的 选 
择 ， 因 为 它 会 选择 最 不 碍 事 的 位 置 。 要 从 图 例 中 去 
际 一 个 或 多 个 元 系 ， 不 传 入 label 或 传 入 
label=' nolegend_' 即 可 。 


注解 以 及 在 Subplot 上 绘图 


除 标 准 的 图 表 对 象 之 外 ， 你 可 能 还 希望 绘制 一 
些 目 定 义 的 注解 《比如 文本 、 和 地头 或 其 他 图 形 


二 


注解 可 以 通过 text、arrow 和 annotate 等 函数 进行 
添加 。text 可 以 将 文本 绘制 在 图 表 的 指定 坐标 
(Xx,y)， 还 可 以 加 上 一 些 日 定义 格式 : 


ax.text(x, y, 'Hello world!', 











family='monospace', fontsize=10) 
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图 8-10: 带 有 三 条 线 以 及 图 例 的 简单 线 型 图 


注解 中 可 以 既 含 有 文本 也 含有 和 箭头。 例如， 我 
们 根据 2007 年 以 来 的 标准 普尔 500 指 数 收 盘 价 格 
《来 和 目 YahoolFinance) 绘制 一 张 曲线 图 ， 并 标 出 
2008 年 到 2009 年 金融 危机 期 间 的 一 些 重要 日 期 。 结 
果 如 图 8-11 所 示 : 











Important dates in 2008-2009 financial crisis 





I bull market 


Bear Stearns Fails : 


Lehman Bankruptcy 








图 8-11: 2008-2009 年 金融 危机 期 则 的 重要 日 期 


from datetime import datetime 


fig = plt.figure() 
ax = fig.add_ subplot(1, 1, 1) 


data = pd.read csv('ch08/spx.csv', index_col=0, parse_ dates=Tr 
spx = datal['SPX'] 


spx.plot(ax=ax, style="'k-') 


crisis data = |[ 
(datetime(2007, 10, 11), "Peak of bull market ' )， 
(datetime(2008, 3, 12), 'Bear Stearns Fails'), 
(datetime(2008, 9, 15), 'Lehman Bankruptcy') 

] 


for date, label in crisis data: 
ax.annotate(label, xy=(date, spx.asof(date) + 50), 
xytext=(date, spx.asof(date) + 200), 
arrowprops=dict(facecolor='black'), 
horizontalalignment='left', verticalalignment= 


# 放大 到 2007-2010 
ax.set xlim(['1/1/2007', '1/1/2011']) 
ax.set_ ylim([600, 1800]) 


ax.set_title('Important dates in 2008-2009 financial crisis') 


更 多 有 关注 解 的 示例 ， 请 访问 matplotlib 的 在 线 
示例 库 。 


图 形 的 绘制 要 抹 烦 一 些 。matplotlib 有 一 些 表 示 
第 见 图 形 的 对 象 。 这 些 对 象 被 称 为 块 (patch) 。 其 
中 有 些 可 以 在 matplotlib.pyplot 中 找到 (如 Rectangle 
和 Circle) ， 但 完整 集合 位 于 matplotlib.patches。 


要 在 图 表 中 添加 一 个 图 形 ， 你 需要 创建 一 个 块 
对 象 sShp， 然 后 通过 ax.add_patch(shp) 将 其 添加 到 
subplot 中 〈 如 图 8-12 所 示 ) : 


fig = plt.figure() 
ax = fig.add_ subplot(1, 1, 1) 











rect = plt.Rectangle((0.2, 0.75), 0.4, 0.15, color='k', alpha= 
circ = plt.Circle((0.7, 0.2), 0.15, color='b', alpha=0.3) 
pgon = plt.Polygon([[90.15, 0.15], [0.35, 0.4], [0.2, 0.6]], cc 


ax.add_patch(rect) 
ax.add_patch(circ) 
ax.add_patch(pgon) 


如 果 但 看 许多 第 见 图 表 对 象 的 具体 实现 代码 ， 
你 融会 发 现 它 们 其 实 惑 是 由 芯 组 疤 而 成 的 。 























图 8-12: 由 三 个 块 图 形 组 成 的 图 
将 图 表 保 仔 到 文件 


利用 plt.savefig 可 以 将 当前 图 表 保 存 到 文件 。 访 
方法 相当 于 Figure 对 象 的 实例 方法 savefig。 例 如 ， 
要 将 图 表 保 存 为 SVG 文件 ， 你 只 需 输 入 : 


plt.savefig('figpath.svg') 


文件 类 型 是 通过 文件 扩展 名 推 朵 出 来 的 。 
此 ， 如 果 你 使 用 的 是 .pdf， 束 会 得 到 一 个 PDF 文 
件 。 我 在 发 布 图 片 时 最 常用 到 两 个 重要 的 选项 是 
dpi 《控制 “每 瑞 寸 点 数 ” 分 辩 率 ) 和 bbox_inches (可 
以 筋 除 当前 图 表 有 周围 的 空 日 部 分 ) 。 要 得 到 一 张 市 
有 最 小 白 边 且 分 辨 率 为 400DPI 的 PNG 图 片 ， 你 可 














以 : 


plt.savefig('figpath.png', dpi=400, bbox_inches='tight') 


savefig 并 非 一 定 要 写 入 磁盘， 也 可 以 写 入 任何 
文件 型 的 对 象 ， 比 如 StringIO: 
from io import StringIO 
buffer = StringI0() 


plt.savefig(buffer) 
plot_data = buffer ,getvalue( ) 


这 对 在 Web 上 提供 动态 生成 的 图 片 是 很 实用 


的 。 








Figure.savefig 方 法 的 参数 及 说 明 如 表 8-2 所 示 。 


表 8-2: Figure.savefig 的 选项 


参数 


fname 
dpi 
facecolor、edgecolor 


format 


bbox_inches 


说 明 

含有 文件 路 径 的 字符 串 或 Python 的 文件 型 对 象 。 图 像 格式 由 文 
件 扩展 名 推断 得 出 ， 例 如 ，.pdf 推 断 出 PDF，.png 推 断 出 PNG 
图 像 分 辨 率 (每 英寸 点 数 ) ， 默 认为 100 

图 像 的 背景 色 ， 默 认为 “w” (白色 ) 

显 式 设 置 文件 格式 ( “png” 、 “padf” 、 “syg” “ps” 
Sp so ) 

图 表 需 要 保存 的 部 分 。 如 果 设 置 为 “tight”， 则 将 尝试 剪除 图 
表 周 围 的 空白 部 分 








matplotlib 配 置 


matplotlib 目 市 一 些 配色 方案 ， 以 及 为 生成 出 版 
质量 的 图 片 而 设 定 的 默认 配置 信息 。 竺 运 的 是 ， 几 
乎 所 有 默认 行为 都 能 通过 一 组 全 局 参数 进行 目 定 
义 ， 它 们 可 以 管理 图 像 大 小 、subplot 边 距 、 配 色 方 
宁 、 了 字体 大 小 、 网 格 类 型 等 。 操 作 matplotlib 配 置 系 
统 的 方式 主要 有 两 种 。 第 一 种 是 Python 编程 方式 ， 
即 利用 rc 方法 。 比 如 说 ， 要 将 全 局 的 图 像 默认 大 小 
设置 为 10x10， 你 可 以 执行 : 


plt.rcl('figure'"，figsize=(10，10)) 


rc 的 第 一 个 参数 是 希望 目 定 义 的 对 象 ， 
WD'figure'、'axes'、'xtick'、'ytick'、'grid'、'legend' 等 。 
其 后 可 以 跟 上 一 系列 的 关键 字 参 数 。 最 简单 的 办 法 
是 将 这 些 选 项 写成 一 个 字典 : 
font_options = {'family' : 'monospace', 
'weight' : 'bold', 


'Ssize' : 'small'} 
plt.rc('font', **font_options) 


要 了 解 全 部 的 目 定 义 选 项 ， 请 查阅 matplotlib 的 
配置 文件 matplotlibrc〈( 位 于 matplotlib/mpl-data 目 录 
中 ) 。 如 宁 对 该 文件 进行 了 目 定 义 ， 并 将 其 放 在 你 
自己 的 .matplotlibrc 目 录 富 二 2 中 ， 则 每 次 使 用 
matplotlib 时 就 会 加 载 该 文件 。 


译注 1: 前 面 的 参数 是 argument， 后 面 的 参数 是 














parameter。 我 党 得 后 面 那 个 parameter 不 太 人 合适， 但 
又 实在 想 不 出 更 好 的 表达 方式 。 各 位 读者 可 以 把 后 
面 那个 parameter 理 解 为 “当前 配置 值 ”。 下 面 那 条 也 
征 如 此 。 

评注 2: 正确 的 目录 名 是 .matplotlib。 





pandas 中 的 绘图 函数 


不 难看 出 ，matplotlib 实 际 上 是 一 种 比较 低级 的 
工具 。 要 组 装 一 张 图 表 ， 你 得 用 它 的 各 种 基础 组 件 
才 行 : 数据 展示 〈 即 图 表 类 型 : 线 型 图 、 柱 状 图 、 
盒 形 图 、 散 布 图 、 等 值 线 图 等 ) 、 图 例 、 标 题 、 刻 
度 标 签 以 及 其 他 注解 型 信息 。 这 是 因为 要 根据 数据 
制作 一 张 完整 图 表 通 常 都 需要 用 到 多 个 对 象 。 在 
pandas 中 ， 我 们 有 行 标 签 、 列 标签 以 及 分 组 信息 
《可 能 有 ) 。 这 也 就 是 说 ， 要 制作 一 张 完整 的 图 
表 ， 原 本 需要 一 大 堆 的 matplotlib 代 码 ， 现 在 只 需 一 
两 条 简洁 的 语句 加 可 以 了 。pandas 有 许多 能 够 利用 
DataFrame 对 象 数 据 组 织 特点 来 创建 标准 图 表 的 高 
级 绘图 方法 (这 些 函 数 的 数量 还 在 不 断 增 加 〉。 


警告 到 目前 为 止 ，pandas 团 队 已 经 在 绘图 功 
能 上 下 了 很 大 工夫 。 一 个 参加 了 “2012Google 
Summer of Code 计 划 ” 的 学 生 正 在 夜以继日 地 添加 新 
功能 ， 并 使 该 接口 具有 更 好 的 一 致 性 和 可 用 性 。 因 
此 ， 本 书 中 的 这 部 分 代码 可 能 很 快 就 要 过 时 了 。 如 
果 那 样 的 话 ，pandas 在 线 文档 将 会 是 最 好 的 学 习 资 
源 。 


线 型 图 


























Series 和 DataFrame 都 有 一 个 用 于 生成 各 类 图 表 
的 plot 方 法 。 默 认 情 况 下 ， 它 们 所 生成 的 是 线 型 图 
(如 图 8-13 所 示 ) : 


In [55]: s = Series(np.random.randn(10).cumsum(), index=np.ara 





In [56]: s.plot() 


该 Series 对 象 的 索引 会 被 传 给 matplotlib， 并 用 
以 绘制 X 轴 。 可 以 通过 use_ index=False 禁 用 该 功 
能 。X 轴 的 刻度 和 界限 可 以 通过 xticks 和 xlim 选 项 进 
行 调节 ，Y 轴 就 用 yticks 和 ylim。plot 参 数 的 完整 列 
表 请 参见 表 8-3。 我 只 会 讲解 其 中 几 个 ， 剩 下 的 融 
留 给 读者 上 自己 去 研究 了 。 























图 8-13: 简单 的 Series 图 表示 例 


pandas 的 大 部 分 绘图 方法 都 有 一 个 可 选 的 ax 参 
数 ， 它 可 以 是 一 个 matplotlib 的 subplot 对 象 。 这 使 你 
能 够 在 网 格 布局 中 更 为 灵活 地 处 理 subplot 的 位 置 。 


DataFrame 的 plot 方 法 会 在 一 个 subplot 中 为 各 列 
绘制 一 条 线 ， 并 目 动 创建 图 例 〈 如 网 8-14 所 示 ) : 
a ',，'"'D" 


columns=['A', 'B', 'C', 
index=np.arange(0, 100, 10)) 














In [58]: df.plot() 


注意 : plot 的 其 他 关键 字 参 数 会 被 传 给 相应 的 
matplotlib 绘 图 函数 ， 所 以 要 更 深入 地 日 定义 图 表 ， 
就 必须 学 习 更 多 有 关 matplotlib API 的 知识 。 
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图 8-14: 简单 的 DataFrame 图 表示 例 





表 8-3: Series.plot 方 法 的 参数 


参数 说 明 

label 用 于 图 例 的 标签 

ax 要 在 其 上 进行 绘制 的 matplotlib subplot 对 象 。 如 果 没 有 设置 ， 则 使 用 当前 
matplotlib subplot 

style 将 要 传 给 matplotlib 的 风格 字符 串 (如 'ko--'") 


alpha 图 表 的 填充 不 透明 度 (0 到 1 之 间 ) 





表 8-3: Series.plot 方 法 的 参数 ( 续 ) 
参数 说 明 


kind 可 以 是 'line'、'bar'、'barh'、'kde' 
logy 在 Y 轴 上 使 用 对 数 标尺 
use_index ”将 对 象 的 索引 用 作 刻 度 标签 

rot 旋转 刻度 标签 (0 到 360) 


xticks 用 作 X 轴 刻度 的 值 
yticks 用 作 Y 轴 刻度 的 值 


xlim X 轴 的 界限 (例如 [0, 10]) 
ylim Y 轴 的 界限 
grid 显示 轴 网 格 线 (默认 打开 ) 





DataFrame 还 有 一 些 用 于 对 列 进行 姑 活 处 理 的 
选项 ， 例 如 ， 是 要 将 所 有 列 都 绘制 到 一 个 subplot 中 
还 是 创建 各 自 的 subplot。 详 细 信 息 请 参见 表 8-4。 


表 8-4: 专用 于 DataFrame 的 plot 的 参数 


参数 说 明 

subplots 将 各 个 DataFrame 列 绘制 到 单独 的 subplot 中 

sharex 如 果 subplots=True， 则 共用 同一 个 X 轴 ， 包 括 刻 度 和 界限 
sharey 如 果 subplots=True， 则 共用 同一 个 Y 轴 

figsize 表示 图 像 大 小 的 元 组 

title 表示 图 像 标题 的 字符 串 

legend 添加 一 个 subplot 图 例 (默认 为 True) 


sort_columns ”以 字母 表 顺 序 绘 制 各 列 ， 默 认 使 用 当前 列 顺 序 








注意 : 有 天时 间 序 列 的 绘制 技术 ， 请 参见 第 10 





章 。 
柱状 图 

在 生成 线 型 图 的 代码 中 加 上 kind='bar 〈 垂 直 柱 
状 图 ) 或 kind='barh' (水 平 柱状 图 ) 即 可 生成 柱状 


图 。 这 时 ，Series 和 DataFrame 的 索引 将 会 被 用 作 
X (bar) 或 Y (barh) 刻度 〈 如 图 8-15 所 示 ) : 


In [59]: fig, axes = plt.subplots(2, 1) 
In [60]: data = Series(np.random.rand(16), index=1list('abcdefdg 


In [61]: data.plot(kind='bar', ax=axes[0], color='k', alpha=0. 
Out[61]: <matplotlib.axes.AxesSubplot at Ox4ee7750> 


In [62]: data.plot(kind='barh', ax=axes[1], color='k', alpha=0 


注意 : 更 多 有 关 plt.subplots 函 数 以 及 matplotlib 





轴 和 图 像 的 信息 ， 请 参见 本 章 后 续 的 内 容 。 


对 于 DataFrame， 柱 状 图 会 将 每 一 行 的 值 分 为 
一 组 ， 如 图 8-16 所 示 : 


In [63]: df = DataFrame(np.random.rand(6, 4), 
ee index=['one', 'two', 'three', 'four', 
columns=pd.Index(['A', 'B', 'C', 'D'], 





In [64]: df 

Out[641]: 

Genus A B C D 
one 0.301686 0.156333 0.371943 0.270731 
two 0.750589 0.525587 0.689429 0.358974 
three 0.381504 0.667707 0.473772 0.632528 
four 0.942408 0.180186 0.708284 0.641783 
five 0.840278 0.909589 0.010041 0.653207 
Six 0.062854 0.589813 0.811318 0.060217 


In [65]: df.plot(kind="'bar') 
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图 8-15: 水 平和 垂直 柱状 图 示例 


注意 ，DataFrame 各 列 的 名 称 "Genus" 被 用 作 了 
图 例 的 标题 。 设 置 stacked=True 即 可 为 DataFrame 生 
成 堆积 柱状 图 ， 这 样 每 行 的 值 束 会 被 堆积 在 一 起 
(如 图 8-17 所 示 ) : 


In [67]: df.plot(kind='barh', stacked=True, alpha=0.5) 


注意 : 柱状 图 有 一 个 非常 不 错 的 用 法 : 利用 
value_counts 图 形 化 显示 Series 中 各 值 的 出 现 频率 ， 
比如 s.value_counts ().plot(kind='bar')。 


”再 以 本 书 前 面 用 过 的 那个 有 关 小 费 的 数据 集 为 
例 二 二 3， 假设 我 们 想 要 做 一 张 堆 积 柱状 图 以 展示 每 
天 各 种 聚会 规模 的 数据 点 的 百分比 。 我 用 read_csv 
将 数据 加 载 进 来 ， 然 后 根据 日 期 和 聚会 规模 创建 一 
张 交 叉 表 :; 


In [68]: tips = pd.read_csv( ' cho08/tips.csv ' ) 











In [69]: party_counts = pd.crosstab(tips.day, tips.size) 


In [70]: party_counts 


Out[70]: 

size 1 2 3 4 5 6 
day 

Fri 1 16 1 1 0 0 
Sat 2 53 18 13 1 0 
Sun © 39 15 18 3 1 
Thur 1 48 4 5 1 3 


# 1 个 人 和 6 个 人 的 聚会 都 比较 少 
In [71]: party_counts = party_counts.ix[:, 2:5] 
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图 8-16: DataFrame 柱 状 图 示例 
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图 8-17: DataFrame 堆 积 柱状 图 示例 


然后 进行 规格 化 ， 使 得 各 行 的 和 为 1 必须 转 


换 成 浮 点 数 ， 以 避免 Python 2.7 中 的 整数 除法 问 
题 )》 ， 并 生成 图 表 《〈 如 图 8-18 所 示 ) : 


# 当 yl 0 为 1” 
In [72]: party_pcts = party_counts.div(party_counts.sum(1).ast 


In [73]: party_pcts 


Out[73] : 

size 2 3 4 5 
day 

Fri 0.888889 0.055556 0.055556 0.000000 
Sat 0.623529 0.211765 0©0.152941 0.011765 
Sun 0.520000 0.200000 0.240000 0.040000 
Thur 0.827586 0.068966 0.086207 0.017241 


In [74]: party_pcts.plot(kind='bar', stacked=True) 


于 是 ， 通 过 该 数据 集束 可 以 看 出 ， 有 聚会 规模 在 
周末 会 变 大 。 


直方 图 和 密度 图 


直方 图 (histogram) 是 一 种 可 以 对 值 频率 进行 
离散 化 显示 的 柱状 图 。 数 据点 被 拆 分 到 离散 的 、 间 
隅 均匀 的 面 元 中 ， 绘 制 的 是 各 面 元 中 数据 点 的 数 
量 。 再 以 前 面 那个 小 费 数据 为 例 ， 通 过 Series 的 hist 
方法 ， 我 们 可 以 生成 一 张 “ 小 费 占 消费 总 额 上 分 
比 ” 4 的 直方 图 (如 图 8-19 所 示 ) : 

















图 8-18: 每 天 各 种 聚会 规模 的 比例 





In [76]: tips['tip_ pct'] = tips['tip'] / tips['total bill'] 


In [77]: tips['tip_pct'].hist(bins=50) 




















图 8-19: 小 费 百 分 比 的 直方 图 





与 此 相关 的 一 种 图 表 类 型 是 密度 图 ， 它 是 通过 
计算 “可 能 会 产生 观测 数据 的 连续 概率 分 布 的 估 
计 ” 而 产生 的 。 一 般 的 过 程 是 将 该 分 布 近似 为 一 组 
核 〈 即 诸如 正 态 (高 斯 ) 分 布 之 类 的 较为 简单 的 分 
布 ) 。 因 此 ， 密 度 图 也 被 称 作 KDE (Kernel Density 
Estimate， 核 密度 估计 ) 图 。 调 用 plot 时 加 上 
kind=kde' 即 可 生成 一 张 密度 图 《标准 混合 正 态 分 布 
KDE) ， 如 图 8-20 所 示 : 





In [79]: tips['tip_pct'].plot(kind="'kde') 

















图 8-20: 小 费 百 分 比 的 密度 图 


这 两 种 图 表 第 冲 会 被 团 在 一 起 。 直 方 图 以 规格 
化 形式 给 出 《以 便 给 出 面 元 化 密度 ) ， 然 后 再 在 其 
上 绘制 核 密度 估计 。 接 下 来 来 看 一 个 由 两 个 不 同 的 
标准 正 态 分 布 组 成 的 双 峰 分 布 〈 如 图 8-21 所 示 》〉: 











In [81]: comp1 = np.random.normal(0, 1, size=200) # N(0, 1) 


In [82]: comp2 = np.random.normal(10, 2, size=200) # N(10, 4) 
In [83]: values = Series(np.concatenate([compi, comp2])) 


In [84]: values.hist(bins=100, alpha=0.3, color='k', normed=Tr 
Out[84]: <matplotlib.axes.AxesSubplot at Ox5cd2350> 


In [85]: values.plot(kind='kde', style='k--') 


散布 图 


散布 图 (scatter plot) 是 观察 两 个 一 维 数据 序 
列 之 间 的 关系 的 有 效 手 段 。matplotlib 的 scatter 方 法 
是 绘制 散布 图 的 主要 方法 。 在 下 面 这 个 例子 中 ， 我 
加 载 了 来 自 statsmodels 项 目的 macrodata 数 据 集 ， 选 
择 其 中 几 列 ， 然 后 计算 对 数 关 : 


In [86]: macro = pd.read_ csv('cho8/macrodata.csv') 











In [87]: data = macro[['cpi', 'm1i', 'tbilrate', 'unemp']] 
In [88]: trans_ data = np.log(data).diff().dropna() 


In [89]: trans_data[-5:] 


Out[89] : 

cpi m1 tbilrate unemp 
198 -0.007904 0.045361 -0.396881 0.105361 
199 -0.021979 0.066753 -2.277267 0.139762 
200 0.002340 0.010286 0.606136 0.160343 
201 0.008419 0.037461 -0.200671 0.127339 
202 0.008894 0.012202 -0.405465 0.042560 

















图 8-21: 带 有 密度 估计 的 规格 化 直方 图 
利用 plt.scatter 即 可 轻松 绘制 一 张 简单 的 散布 图 
(如 图 8-22 所 示 ) : 


In [91]: plt.scatter(trans_ data['m1i'], trans_data['unemp']) 
Out[91]: <matplotlib,.collections.PathCollection at Ox43c31d0O> 


0.00 








In [92]: plt.title('Changes in log %s vs. log %s' % ('mi', un 


在 探索 式 数据 分 析 工 作 中 ， 同 时 观察 一 组 变量 
的 散布 图 是 很 有 意义 的 ， 这 也 被 称 为 散布 图 矩阵 
(scatter plot matrix) 。 纯 手工 创建 这 样 的 图 表 很 费 
工夫 ， 所 以 pandas 提 供 了 一 个 能 从 DataFrame 创 建 散 
布 图 矩阵 的 scatter_matrix 函 数 。 它 还 支持 在 对 角 线 
上 放置 各 变量 的 直方 图 或 密度 图 。 结 果 如 图 8-23 上 所 
和 仆 : 




















In [93]: pd.scatter matrix(trans_data, diagonal='kde', color=" 
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图 8-23: statsmodels macro data 的 散布 图 矩阵 


详 注 3: 本 书 前 面 没有 用 过 这 个 数据 集 ， 读 者 不 用 
找 了 。 

译注 4: 和 仔细 观察 数据 可 以 友 现 ， 实 际 并 不 是 这 样 
的 ， 因 为 这 里 的 小 费 可 能 不 在 消费 总 额 里 面 。 仅 仅 
当做 一 个 例子 即 可 ， 不 必 深 究 。 





绘制 地 图 : 图 形 化 显示 海地 地 震 危 机 
数据 


Ushahidi 是 一 家 非 营 利 软 件 公 司 ， 人 们 可 以 通 

过 短信 问 其 提供 有 天目 然 灾害 和 地 缘 政 治 事件 的 信 
恩 。 这 些 数据 集会 被 友 布 在 他 们 的 网 站 

(http://community.ushahidi.com/research/datasets/) 
上 以 供 分 析 和 图 形 化 。 我 下 载 了 2010 年 海地 地 震 及 
其 余 展 期 间 搜 集 的 数据 。 在 本 市 中 ， 我 将 告诉 你 如 
何 利 用 pandas 以 及 其 他 目前 已 经 学 过 的 工具 处 理 这 
些 数 据 ， 以 便 为 分 析 和 图 形 化 工作 做 准备 。 从 上 面 
的 链接 下 载 好 这 个 CSV 文 件 之 后 ， 就 可 以 用 
read_csv 将 其 加 载 到 DataFrame 中 了 : 








In [94]: data = pd.read csv('ch08/Haiti.csv') 


In [95]: data 

Out [95] : 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 3593 entries, 0 to 3592 
Data columns: 


Serial 3593 non-null values 
INCIDENT TITLE 3593 non-null values 
INCIDENT DATE 3593 non-null values 
LOCATION 3593 non-null values 
DESCRIPTION 3593 non-null values 
CATEGORY 3587 non-null values 
LATITUDE 3593 non-null values 
LONGITUDE 3593 non-null values 
APPROVED 3593 non-null values 
VERIFIED 3593 non-null values 


dtypes: float64(2), int64(1), object(7) 





现在 来 处 理 一 下 这 些 数据 ， 看 看 哪些 是 我 们 想 
要 的 。 每 一 行 表示 一 条 从 某 人 的 手机 上 发 送 的 紧急 
或 其 他 问题 的 报告 。 每 条 报告 都 有 一 个 时 间 戳 和 位 
置 〈 经 度 和 纬度 ) : 


In [96]: data[l[l'INCIDENT DATE', "LATITUDE', "LONGITUDE"]]T :10] 
out[96]: 

INCIDENT DATE LATITUDE € LONGITUDE 
05/07/2010 17:26 18.233333 -72.,533333 
28/06/2010 23:06 50.226029 5.729886 
24/06/2010 16:21 22.278381 114.174287 
20/06/2010 21:59 44.407062 8.933989 
18/05/2010 16:26 18.571084 -72.334671 
26/04/2010 13:14 18.593707 -72.310079 
26/04/2010 14:19 18.482800 -73.638800 
26/04/2010 14:27 18.415000 -73.195000 
15/03/2010 10:58 18.517443 -72.,236841 
15/03/2010 11:00 18.547790 -72.410010 








om”~ODOO 上 wm 六 局 


CATEGORY 字 段 含 有 一 组 以 逗号 分 隔 的 代 
码 ， 这 些 代 码 表示 消息 的 类 型 


In [97]: data[l'cCATEGORY'][:6] 


Out[97]: 

0 1. Urgences | Emergency，3， Public Health, 
1 1. Urgences | Emergency, 2. Urgences logistiques 
2 2. Urgences logistiques | Vital Lines, 8. Autre | 
3 1. Urgences | Emergency, 
4 1. Urgences | Emergency, 
5 5e. Communication lines down, 
Name: CATEGORY 


只 要 仔细 观察 一 下 上 和 面 这 个 数据 摘要 ， 束 能 
现 有 些 分 类 言 轧 缺 失 了 ， 因 此 我 们 需要 丢 基 这些 数 
据点 。 此 外 ， 调 用 describe 还 能 发 现 数据 中 存在 一 


些 卉 种 的 地 理 位 置 : 


In [98]: data.describe() 
Out[98 ] : 

Serial LATITUDE LONGITUDE 
count 3593.000000 3593.000000 3593.000000 
mean 2080.277484 18.611495 -72.322680 
std 1171.100360 0.738572 3.650776 
min 4.000000 18.041313 -74.452757 
25% 1074.000000 18.524070 -72.417500 
50% 2163 .000000 18.539269 -72.335000 
75% 3088 .000000 18.561820 -72.293570 
max 4052 .000000 50 .226029 114 .174287 


清除 错误 位 置信 息 并 移 除 缺 失 分 类 信息 是 一 件 
很 简单 的 事情 


(data.LONGITUDE > -75) & (data.LONGITUDE 
& data.CATEGORY .notnull( )] 


现在 ， 我 们 想 根 据 分 类 对 数据 做 一 些 分 析 或 图 
形 化 工作 ， 但 是 各 个 分 类 字段 中 可 能 含有 多 个 分 

。 此 外 ， 各 个 分 类 EN RN 还 有 一 
em 。 因 此 需要 
对 数据 做 一 些 规整 化 处 理 。 首 先 ， 我 编写 了 两 个 函 
数 富 5， 一 个 用 于 获取 所 有 分 类 的 列表 ， 另 一 个 用 
于 将 各 个 分 类 信息 拆 分 为 编码 和 英语 名 称 : 


def to _ cat_list(catstr): 
stripped = (x.strip() for x in catstr.split(',')) 
return [x for x in stripped if x] 

















def get_all categories(cat_series): 
cat_sets = (set(to cat_ list(x)) for x in cat_series) 


return sorted(set.union(*cat_sets)) 


def get_english(cat): 
code, names = cat.split('.') 
If '|' in names: 
names = names.split(' | ')[i1] 
return code, names.strip() 


你 可 以 测试 一 下 get_english 函 数 是 否 工 作 正 
常 : 


In [101]: get_english('2. Urgences logistiques | Vital Lines') 
Out[101]: ('2', 'Vital Lines') 


接 下 来 ， 我 做 了 一 个 将 编码 跟 名 称 映射 起 来 的 
字典 ， 这 是 因为 我 们 等 会 儿 要 用 编码 进行 分 机 。 后 
面 我 们 在 修饰 图 表 时 也 会 用 到 这 个 注意 ， 这 里 用 
的 是 生成 占 表 达 式 ， 而 不 是 列表 推导 式 ): 


In [102]: all cats = get_all categories(data.CATEGORY) 











# 生成 器 表达 式 
In [103]: eng1lish_mapping = dict(get english(x) for x in all_c 


In [104]: english_ mapping['2a'] 
Out[104]: 'Food Shortage， 


In [105]: english mapping['6c'] 
Out[105]: 'Earthquake and aftershocks' 


根据 分 类 选取 记录 的 方式 有 和 人 很多， 其 中 之 一 是 
添加 指标 (或 哑 变 量 ) 列 ， 每 个 分 类 一 列 。 为 此 ， 
我 们 首先 抽取 出 唯一 的 分 类 编码 ， 并 构造 一 个 全 零 
DataFrame 〈 列 为 分 类 编码 ， 索 引 跟 data 的 索引 一 





样 ) : 


def get_code(seq): 
return [x.split('.')[0] for x in seq if x] 


all_ codes = get_code(all cats) 

code_index = pd.Index(np.unique(all codes)) 

dummy_frame = DataFrame(np.zeros((len(data), len(code_index))) 
columns=code_index) 


如 果 一 切 顺 利 ，dummy_frame 应 该 是 这 样 的 : 


In [107]: dummy_frame.ix[:, :6] 
Out[107]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 3569 entries, © to 3592 
Data columns: 





1 3569 non-null values 
1a 3569 non-null values 
1b 3569 non-null values 
1C 3569 non-null values 
1d 3569 non-null values 
2 3569 non-null values 


dtypes: float64(6) 


你 可 经 想到 了 ， 现 在 应 该 将 各 行 中 适当 的 
a 然后 再 与 data 进 行 连接 : 


for row, cat in zip(data.index, data.CATEGORY): 
codes = get_code(to cat_list(cat)) 
dummy_frame.ix[row, codes] = 





data = data.join(dummy_frame.add_prefix('category_')) 


现在 data 有 了 一 些 新 的 列 : 


In [109]: data.ix[:, 10:15] 


Out[109] : 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 3569 entries, 0 to 3592 
Data columns: 


category_1 3569 non-null values 
category_1a 3569 non-null values 
category_1b 3569 non-null values 
category_1c 3569 non-null values 


category_1d 3569 non-null values 
dtypes: float64(5) 


接 下 来 开始 画图 吧 ! 由 于 这 是 空间 坐标 数据 ， 
因此 我 们 希望 把 数据 绘制 在 海地 的 地 图 上 。 
basemap 工 具 集 

(http://matplotlib.github.com/basemap, matplotlib 的 
一 个 插件 ) 使 得 我 们 能 够 用 Python 在 地 图 上 绘制 2D 
数据 。basemap 提 供 了 许多 不 同 的 地 球 投影 以 及 一 
种 将 地 球 上 的 经 纬度 坐标 投影 转换 为 二 维 matplotlib 
图 的 方式 。 经 过 一 过 又 一 过 地 答 试 ， 我 编写 了 下 面 
这 个 函数 ， 它 可 以 绘制 出 一 张 简单 的 黑白 海地 地 
图 : 


from mpl_ toolkits.basemap import Basemap 
import matplotlib.pyplot as plt 














def basic haiti map(ax=None, lllat=17.25, urlat=20.25, 
11llon=-75, urlon=-71): 

# 创建 极 球面 投影 的 Basemap 实 例 。 

m = Basemap(ax=ax, projection='stere', 
lon_0O=(urlon + lllon) / 2, 
lat 0=(urlat + lllat) / 2, 
llcrnrlat=lllat, urcrnrlat=urlat, 
llcrnrlon=lllon, urcrnrlon=urlon, 
resolution="'f"') 

# 绘制 海岸 线 、 州 界 、 国 界 以 及 地 图 边界 。 

m.drawcoastlines() 

m.drawstates() 














m.drawcountries() 
return m 


现在 的 问题 是 ， 如 何 让 返回 的 这 个 Basemap 对 
象 知道 该 怎样 将 坐标 转换 到 画布 上 。 我 编写 了 下 面 
的 代码 来 绘制 数据 。 对 于 每 一 个 分 类 ， 我 在 数据 集 
中 找到 了 对 应 的 坐标 ， 并 在 适当 的 subplot 中 绘制 一 
个 Basemap， 转 换 坐 标 ， 然 后 通过 Basemap 的 plot 方 
法 绘制 点 : 








fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(12, 10)) 
fig.subplots_adjust(hspace=0.05, wspace=0.05) 


to_plot = ['2a', '1', '3c', '7a'| 
lllat=17.25; urlat=20.25; lllon=-75; Urlon=-71 


for code, ax in zip(to_plot, axes.flat): 
m = basic haiti map(ax, lllat=lllat, urlat=urlat, 
lllon=lllon, urlon=urlon) 


cat_data = dataldata['category %s' % code] == 1] 


# 计算 地 图 的 投影 坐标 。 
x y = m(cat_data.LONGITUDE, cat_data.LATITUDE) 








m.plot(x, y, 'k.', alpha=0.5) 
ax.set_ title('%s: %s' % (code, english _ mapping[code])) 


最 终结 果 如 图 8-24 所 示 。 



































图 8-24: 海地 地 震 的 4 类 数据 


从 图 中 可 以 看 出 ， 大 部 分 数据 都 集中 在 人 口 最 
称 密 的 城市 一 一 太子 港 。basemap 还 可 以 靶 加 来 自 
shapefile 的 地 图 数据 。 我 先 下 载 了 一 个 市 有 太子 港 
道路 的 shapefile (参见 
http://cegrp.cga.harvard.edu/haiti/? 
q=resources_data) 。Basemap 对 象 有 一 个 非常 方便 
的 readshapefile 方 法 ， 于 是 在 解压 完 道 路 数据 文件 
之 后 ， 我 只 在 代码 中 加 以 下 几 行 就 可 以 了 : 


shapefile path = 'cho8/PortAuPrince Roads/PortAuPrince_ Roads' 
m.readshapefile(shapefile path, 'roads') 





在 对 经 纬度 边界 进行 了 一 番 尝 试 之 后 ， 我 做 了 
一 张 反映 食物 短缺 情况 的 图 片 ， 如 图 8-25 所 示 。 





Food shortages reported in Port-au-Prince 
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图 8-25: 海地 大 地 震 期 间 ， 太 子 港 的 食物 短缺 报告 


译注 5; 读者 就 当做 两 个 吧 。 


Python 图 形 化 工具 生态 系统 


用 Python 创建 图 形 的 方式 非常 多 《根本 罗列 不 
完 ) 。 除 了 开源 库 ， 商 业 库 也 不 少 。 


本 书 主要 涉及 的 是 matplotlib， 因 为 它 是 Python 
领域 中 使 用 最 广泛 的 绘 匈 工具 。 虽 然 matplotlib 是 
Python 科学 计算 生态 系统 的 重要 组 成 部 分 ， 但 它 在 
统计 图 表 的 创建 和 展示 方面 仍然 有 许多 缺点 。 
MATLAB 用 户 可 能 会 对 matplotlib 感 到 熟悉 ， 而 R 用 
户 (尤其 是 使 用 ggplot2 和 trellis 的 那些 ) 可 能 就 会 
比较 郁 间 了 【至少 目前 是 ) 。 虽 然 matplotlib 可 以 为 
Web 应 用 创建 漂 腕 的 图 表 ， 但 这 通常 需要 耗费 大 量 
的 精力 ， 因 为 它 原 本 是 为 印刷 而 设计 的 。 先 不 管 美 
不 美观 ， 至 少 它 足以 应 付 大 部 分 需求 。 在 pandas 
中 ， 我 跟 其 他 开发 人 员 一 直 都 在 寻求 使 数据 分 析 中 
的 大 部 分 绘图 工作 变 得 更 简单 的 办 法 。 


广泛 使 用 的 图 形 化 工具 很 多 。 这 里 我 只 列举 几 
个 ， 但 建议 你 研究 一 下 整个 生态 系统 。 














Chaco 


Chaco (http://code.enthought.com/chaco/〉 是 由 
Enthought 开 发 的 一 个 绘图 工具 包 ， 它 既 可 以 绘制 静 


态 图 又 可 以 生成 交互 式 图 形 ， 如 图 8-26 所 示 。 它 非 
第 适合 用 复杂 的 图 形 化 方式 表达 数据 的 内 部 关系 。 
跟 matplotlib 相 比 ，Chaco 对 交互 的 支持 要 好 得 多 ， 
而 且 洽 染 速 度 很 快 。 如 果 要 创建 交互 式 的 GUI 应 用 
程序 ， 它 确实 是 个 不 错 的 选择 。 


























图 8-26: Chaco 图 示例 
mayavl 


mayavi 项 目 〈 由 Prabhu Ramachandran、Gal 
Varoquaux 等 人 开发 ) 是 一 个 基于 开源 C++ 图 形 库 
VIK 的 3D 图 形 工 具 包 。 跟 matplotlib 一 样 ，mayavi 
也 能 集成 到 IPython 以 实现 交互 式 使 用 。 通 过 鼠标 和 
键盘 操作 ， 图 形 可 以 被 平移 、 旋 转 、 缩 放 。 在 第 12 





草 中 ， 我 用 mayavi 制 作 了 一 张 有 关 广 播 的 插图 。 我 
没有 给 出 任何 调用 mayavi 的 代码 ， 但 你 可 以 在 网 上 
找到 很 多 文档 和 示例 。 我 相信 它 能 成 为 WebGL (以 
及 相关 产品 ) 的 奉 代 品 ， 虽 然 其 生成 的 图 形 很 难以 


交互 的 形式 共享 。 
其 他 库 


当然 ，Python 领 域 中 还 有 许多 其 他 的 图 形 化 库 
和 应 用 程序 : PyQwt、Veusz、gnuplot-py、biggles 
等 。 我 就 曾经 见 过 PyQwt 补 用 在 基于 Qt 框架 
(PyQt) 的 GUI 应 用 程序 中 。 许 多 库 都 还 在 不 断 地 
发 展 (有些 已 经 被 用 在 大 型 应 用 程序 当中 了 ) 。 近 
几 年 来 ， 我 发 现 了 一 个 总 体 趋 势 ， 大 部 分 库 都 在 问 
基于 Web 的 技术 发 展 ， 并 逐渐 远离 宋 面 图 形 拉 术 。 
下 面 我 要 就 这 个 问题 多 说 儿 人 句 。 


图 形 化 工具 的 未 来 


基于 Web 技 术 《〈 比 如 JavaScript) 的 图 形 化 是 必 
然 的 有 友 展 趋势 。 坚 无 疑问 ， 许 多 基于 Flash 或 
JavaScript 的 静态 或 交互 式 图 形 化 工具 已 经 出 现 了 很 
多 年 。 而 且 类 似 的 新 工具 包 《 如 d3.js 及 其 分 文 项 
目 ) 一 直 都 在 不 断 涌 现 。 相 比 之 下 ， 韭 Web 式 的 图 
形 化 开发 工作 在 近 几 年 中 减 慢 了 许多 。Python 以 及 

















其 他 数据 分 机 和 统计 计算 环境 《如 R) 都 是 如 此 。 


于 是 ， 开 发 方 回 束 变 成 了 实现 数据 分 析 和 准备 
工具 (如 pandas)〉 与 Web 浏 览 器 之 则 更 为 紧密 的 集 
成 。 我 硕 望 这 个 思路 今后 能 成 为 Python 以 及 非 
Python 用 户 之 间 宇 有 成 效 的 协作 手段 。 





第 9 草 ”数据 聚合 与 分 组 运算 


对 数据 集 进 行 分 组 并 对 各 组 应 用 一 个 函数 无 
论 是 聚合 还 是 转换 ) ， 这 是 数据 分 析 工 作 中 的 重要 
坏 证 。 在 将 数据 集 准备 好 之 后 ， 通 第 的 任务 束 是 计 
算 分 组 统计 或 生成 透视 表 。pandas 提 供 了 一 个 灵活 
高 效 的 gruopby 功 能 ， 它 使 你 能 以 一 种 目 然 的 方式 
对 数据 集 进行 切片 、 切 块 、 摘 要 等 操作 。 


关系 型 数据 库 和 SQL (Structured Query 

Language， 绪 构 化 玛 询 语言 ) 能 够 如 此 流行 的 原因 
之 一 就 是 其 能 够 方便 地 对 数据 进行 连接 、 过 滤 、 转 
换 和 聚合 。 但 是 ， 像 SQL 这 样 的 查询 语言 所 能 执行 
的 分 组 运算 的 种 类 很 有 限 。 在 本 章 中 你 将 会 看 到 ， 
由 于 Python 和 pandas 强 大 的 表达 能 力 ， 我 们 可 以 执 
行 复杂 得 多 的 分 组 运算 〈 利 用 任何 可 以 接受 pandas 
对 象 或 NumPy 数 组 的 函数 ) 。 在 本 章 中 ， 你 将 会 学 
到 : 


:根据 一 个 或 多 个 键 〈 可 以 是 函数 、 数 组 或 
DataFrame 列 名 ) 拆 分 pandas 对 象 。 


.计算 分 组 摘要 统计 ， 如 计数 、 平 均值 、 标 准 
差 ， 或 用 户 自 定义 函数 。 




















.对 DataFrame 的 列 应 用 各 种 各 样 的 图 数 。 


:应 用 组 内 转换 或 其 他 运算 ， 如 规格 化 、 线 性 
回归 、 排 名 或 选取 子 集 等 。 


计算 透视 表 或 交叉 表 。 
-执行 分 位 数 分 析 以 及 其 他 分 组 分 析 。 
注意 : 对 时 间 数 据 的 聚合 (groupby 的 特殊 用 


法 之 一 ) 也 称 作 重 采样 〈resampling) ， 本 书 将 在 
第 10 章 中 单独 对 其 进行 讲解 。 








GroupBy 扩 术 


Hadley Wickham 〈 许 多 热门 R 语 言 包 的 作者 ) 
创造 了 一 个 用 于 表示 分 组 运算 的 术语 "split-apply- 
combine"《〈 拆 分 一 应 用 一 合并 ) ， 我 觉得 这 个 词 很 
好 地 描述 了 整个 过 程 。 分 组 运算 的 第 一 个 阶段 ， 
pandas 对 象 “〈 无 论 是 Series、DataFrame 还 是 其 他 
的 ) 中 的 数据 会 根据 你 所 提供 的 一 个 或 多 个 键 被 拆 
分 〈split) 为 多 组 。 拆 分 操作 是 在 对 象 的 特定 轴 上 
执行 的 。 例 如 ，DataFrame 可 以 在 其 行 (axis=0) 或 
列 〈axis=1) 上 进行 分 组 。 然 后 ， 将 一 个 函数 应 用 
Capply) 到 各 个 分 组 并 产生 一 个 新 值 。 最 后 ， 所 有 
这 些 函 数 的 执行 结束 会 被 合并 〈combine) 到 最 终 
的 结 采 对 象 中 。 结 末 对 象 的 形式 一 般 取 决 于 数据 上 
所 执行 的 操作 。 图 9-1 大 致 说 明了 一 个 徐 单 的 分 组 


聚合 过 程 。 
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图 9-1: 分 组 聚合 演示 
分 组 键 可 以 有 多 种 形式 ， 且 类 型 不 必 相 同 : 
-列表 或 数组 ， 其 长 度 与 待 分 组 的 轴 一 样 。 
表示 DataFrame 某 个 列 名 的 值 。 


:字典 或 Series， 给 出 行 分 组 轴 上 的 值 与 分 组 名 
之 间 的 对 应 关系 。 


范 数 ， 用 于 处 理 轴 索引 或 索引 中 的 各 个 标 


注意 ， 后 三 种 都 只 是 快捷 方式 而 已 ， 其 最 终 目 





的 仍然 是 产生 一 组 用 于 拆 分 对 象 的 值 。 如 果 和 觉得 这 
些 东 西 看 起 来 很 抽象 ， 不 用 担心 ， 我 将 在 本 章 中 给 
出 大 量 有 关于 此 的 示例 。 首 先 来 看 看 下 面 这 个 非常 
人 简单 的 表格 型 数据 集 (以 DataFrame 的 形式 ) : 


'datai' : np.random.randn(5), 
'data2' : np.random.randn(5)}) 








In [14]: df 
Out[14] : 

datal data2 key1 key2 
© -0.204708 1.393406 a one 
1 0.478943 0.092908 a two 
2 -0.519439 0.281746 b one 
3 -0.555730 0.769023 b two 
4 1.965781 1.246435 a one 


假设 你 起 要 按 Kkey1 进 行 分 组 ， 并 计算 datal 列 的 
平均 值 。 实 现 该 功能 的 方式 有 很 多 ， 而 我 们 这 里 要 
用 的 是 : 访问 datal， 并 根据 key1 调 用 groupby: 


In [15]: grouped = df['datai'].groupby(df['key1']) 


In [16]: grouped 
Out[16]: <pandas.core.groupby.SeriesGroupBy at 0x2d78b10> 


变 OD ou 象 。 它 实际 上 还 
没有 进行 任何 计算 ， 只 是 含有 一 0 
df['key1"] 的 中 间 数 据 而 已 。 换 句 话说 ， 该 对 象 已 经 
有 了 接 下 来 对 各 分 组 执行 运算 所 需 的 一 切 信息 。 例 
如 ， 我 们 可 以 调用 GroupBy 的 mean 方 法 来 计算 分 组 


平均 值 : 


In [17]: grouped.mean() 
Out[17]: 

key1 

a 0.746672 

b -0.537585 


稍 后 我 将 详细 讲解 .mean0 的 调用 过 程 。 这 里 最 
重要 的 是 ， 数 据 (Series) 展 据 分 组 键 进行 了 末 
合 ， 产 生 了 一 个 新 的 Series， 其 索引 为 key1 列 中 的 
唯一 值 。 之 所 以 天 有 中 系 引 的 名 称 为 key1， 古 因为 
原始 DataFrame 的 列 df[key1] 就 叫 这 个 名 字 。 


如 果 我 们 一 次 传 入 多 个 数组 ， 风 会 得 到 不 同 的 
结果 : 


In [18]: means = df['data1i'].groupby([df['key1i'], df['key2']]) 








In [19]: means 


Out[19] : 

key1 key2 

a one 0.880536 
two 0.478943 

b one -0.519439 
two -0.555730 


这 里 ， 我 通过 两 个 键 对 数据 进行 了 分 组 ， 得 到 
的 Series 共 有 一 个 层次 化 索引 《由 唯一 的 键 对 组 
成 ) : 
In [20]: means.unstack() 


Out [20]: 
key2 one two 





key1 
a 0.880536 0.478943 
b -0.519439 -0.555730 


在 上 面 这 些 示 例 中 ， 分 组 键 均 为 Series。 实 际 


上 ， 分 组 键 可 以 是 任何 长 度 适 当 的 数组 : 


In [21]: states = np.array(['Ohio', ' California'， California， 
In [22]: years = np.array([2005, 2005, 2006, 2005, 2006]) 
In [23]: df['datai'].groupby([states, years]).mean() 
Out[23]: 
California 2005 0.478943 
2006 -0.519439 
Ohio 2005 -0.380219 
2006 1.965781 


此 外 ， 你 还 可 以 将 列 名 《可 以 是 字符 串 、 数 字 


或 其 他 Python 对 象 ) 用 作 分 组 键 : 


In [24]: 
Out[24] : 


df,groupby( "key1') .mean() 
datal data2 
key1 

a 0.746672 0.910916 
b -0.537585 0.525384 


In [25]: 
Out[25] : 


df,groupby(['Kkey1L'， 'key2']).mean() 


Ss key2 


one 
two 
b one 
two 


你 可 


datal 


0.880536 
0.478943 


-0.519439 
-0.555730 


data2 


1.319920 
0.092908 
0.281746 
0.769023 


己 经 注意 到 了 ， 在 执行 





df.groupby(key1).mean0 时 ， 结 果 中 没有 key2 列 。 

这 是 因为 df['key2"] 个 是 数值 数据 (俗称 “麻烦 

列 ”) ， 所 以 被 从 结果 中 排除 了 。 默 认 情 况 下 ， 所 
有 数值 列 都 会 被 聚合 ， 虽 然 有 时 可 能 会 被 过 滤 为 一 
个 子 集 〈 稍 后 就 会 讲 到 ) 。 


无 论 你 准备 拿 groupby 做 什么 ， 都 有 可 能 会 用 
到 GroupBy 的 size 方 法 ， 它 可 以 返回 一 个 含有 分 组 大 
小 的 Series: 
In [26]: df.groupby(['key1i', 'key2']).sizel() 
Out[26]: 
key1 key2 
”te 


b one 
two 


警告 : 到 编写 本 书 时 为 止 ， 分 组 键 中 的 任何 缺 
失 值 都 会 被 排除 在 结果 之 外 。 在 你 读 到 这 里 的 时 
候 ， 说 不 定 束 已 经 有 一 个 选项 可 以 使 结果 中 包含 
NA 组 了 评 汪 1。 


对 分 组 进行 迁 代 
GroupBy 对 象 广 持 迭代 ， 可 以 产生 一 组 二 元 元 


组 (由 分 组 名 和 数据 块 组 成 ) 。 看 看 下 面 这 个 简单 
的 数据 集 : 


2 
1 
1 
1 


In [27]: for name, group in df.groupby('key1'): 
we print name 
print group 
a 
datal data2 Key1L key2 
© -0.204708 1.393406 a one 
1 0.478943 0.092908 a two 
4 1.965781 1.246435 a one 
b 
datal data2 key1 key2 
2 -0.519439 0.281746 b one 
3 -0.555730 0.769023 b two 





对 于 多 重 键 的 情况 ， 元 组 的 第 一 个 元 素 将 会 是 


由 键 值 组 成 的 元 组 : 


In [28]: for (k1，k2)，group in df.groupby(['keyi', 'key2"' |]): 
: print ki, k2 
print group 
a one 
datal data2 key1 key2 


0 -0.204708 1.393406 a one 
4 1.965781 1.246435 a one 
a two 

datal data2 key1 key2 
1 0.478943 0.092908 a two 
b one 

datal data2 key1 key2 
2 -0.519439 0.281746 b one 
b two 

datal data2 key1 key2 
3 -0.55573 0.769023 b two 


当然 ， 你 可 以 对 这 些 数 据 厂 段 做 任何 操作 。 有 





一 个 你 可 能 会 党 得 有 用 的 运算 : 将 这 些 数 据 厂 段 做 


成 一 个 字典 。 


In [29]: pieces = dict(1list(df.groupby('key1'))) 


In [30]: pieces['b'] 
Out[30]: 

datal data2 Key1L key2 
2 -0.519439 0.281746 b one 
3 -0.555730 0.769023 b two 


groupby 默 认 是 在 axis=0 上 进行 分 组 的 ， 通 过 设 
置 也 可 以 在 其 他 任何 轴 上 进行 分 组 。 拿 上 面 例子 中 
的 df 来 说 ， 我 们 可 以 根据 dtype 对 列 进行 分 组 : 


In [31]: df.dtypes 
Out[31]: 

data1 float64 
data2 float64 
key1 object 
key2 object 


In [32]: grouped = df.groupby(df.dtypes, axis=1) 
In [33]: dict(list(grouped)) 


Out[33]: 

{dtype('float64"'): datal data2 
© -0.204708 1.393406 

1 0.478943 0.092908 

2 -0.519439 0.281746 

3 -0.555730 0.769023 

4 1.965781 1.246435, 

dtype( 'object ' ) : key1 key2 
0 a one 

1 a two 

2 b one 

3 b two 

4 a one} 


选取 一 个 或 一 组 列 


对 于 由 DataFrame 产 生 的 GroupBy 对 象 ， 


如 采用 








一 个 (单个 字符 串 ) 或 一 组 (字符 串 数组 ) 列 名 对 
其 进行 索引 ， 束 能 实现 选取 部 分 列 进行 聚合 的 目 
的 。 也 束 是 说 : 

df .groupby('key1')['data1'] 

df .groupby('key1')[['data2"']] 


是 以 下 代码 的 语法 糖 : 


df['datai'].groupby(df['key1"']) 
df[['data2']].groupby(df['key1']) 


尤其 对 于 大 数据 集 ， 很 可 能 只 需要 对 部 分 列 进 
行 聚 合 。 例 如 ， 在 前 面 那个 数据 集中 ， 如 采 只 需 计 
算 data2 列 的 平均 值 并 以 DataFrame 形 式 得 到 结果 ， 
我 们 可 以 编写 : 


In [34]: df.groupby(['key1i', 'key2'])[['data2']].mean() 
Out[34]: 


data2 
key1 key2 
a one 1.319920 
two 0 .092908 
b one 0.281746 


two 0 .769023 


这 种 索引 操作 所 返回 的 对 象 是 一 个 已 分 组 的 
DataFrame 〈 如 果 传 入 的 是 列表 或 数组 ) 或 已 分 组 
的 Series 《如果 传 入 的 是 标量 形式 的 单个 列 名 ) : 


In [35]: Ss_grouped = df.groupby([ key1'， 'key2'])['data2'] 











In [36]: s_grouped 


Out[36]: <pandas.core.groupby.SeriesGroupBy at 0x2e215d0> 


In [37]: s_grouped.mean() 


Out[37]: 

key1 key2 

a one 1.319920 
two 0.092908 

b one 0.281746 
two ©0.769023 


Name: data2 


通过 字典 或 Series 进 行 分 组 


除数 组 以 外 ， 分 组 信息 还 可 以 其 他 形式 存在 。 
来 看 男 一 个 示例 DataFrame: 


In [38]: people = DataFrame(np.random.randn(5, 5), 
a columns=['a', 'b', 'c', 'd', 'e'], 
index=['Joe', 'Steve', 'Wes', 'Jir 
In [39]: people.ix[2:3，['b'，'c']] = np,nan # 添加 几 个 NA 值 


In [40]: people 


Out[40]: 

a b c d e 
Joe 1.007189 -1.296221 0.274992 0.228913 1.352917 
Steve ©0.886429 -2.001637 -0.371843 1.669025 -0.438570 
Wes -0.539741 NaN NaN -1.021228 -0.577087 
Jim 0 .124121 0.302614 0.523772 0.000940 1.343810 
Travis -0.713544 -0.831154 -2.370232 -1.860761 -0.860757 


假设 己 知 列 的 分 组 关系 ， 并 布 望 根据 分 组 计算 
列 的 总 计 : 


In [41]: mapping = {'a': 'red', 'b': 'red', 'c': blue'， 


d': 'blue', 'e': 'red', 'f' : 'orange'} 


现在 ， 只 需 将 这 个 字典 传 给 groupby 即 可 : 
In [42]: by_column = people.groupby(mapping, axis=1) 


In [43]: by_column.sum() 


Out[43]: 

blue red 
Joe 0.503905 1.063885 
Steve 1.297183 -1.553778 
Wes -1.021228 -1.116829 
Jim 0.524712 1.770545 


Travis -4.230992 -2.405455 


Series 也 有 同样 的 功能 ， 它 可 以 被 看 做 一 个 固 
定 大 小 的 映射 。 对 于 上 面 那 个 例子 ， 如 果 用 Series 
作为 分 组 键 ， 则 pandas 会 检查 Series 以 确保 其 索引 跟 
分 组 轴 是 对 齐 的 : 


In [44]: map_series = Series(mapping) 


In [45]: map_series 


Out[45] : 
a red 
b red 
C blue 
d blue 
e red 
f orange 
In [46]: people.groupby(map_series, axis=1).count() 
Out[46]: 

blue red 
Joe 2 3 
Steve 2 3 
Wes 1 2 
Jim 2 3 
Travis 2 3 


通过 函数 进行 分 组 


相 较 于 字典 或 Series，Python 函 数 在 定义 分 组 
映射 关系 时 可 以 更 有 创意 且 更 为 抽象 。 任 何 被 当做 
分 组 键 的 函数 都 会 在 各 个 索引 值 上 被 调用 一 次 ， 其 
返回 值 束 会 被 用 作 分 组 名 称 。 具 体 点 说 ， 以 上 一 小 
节 的 示例 DataFrame 为 例 ， 其 索引 值 为 人 的 名 字 。 
假设 你 希望 根据 人 名 的 长 度 进 行 分 组 ， 虽 然 可 以 求 
取 一 个 字符 串 长 度数 组 ， 但 其 实 仅仅 传 入 lan 函数 束 
可 以 了 : 


In [47]: people.groupby(len).sum() 
Out[47]: 























a b C d e 
3 0.591569 -0.993608 0.798764 -0.791374 2.119639 
5 0.886429 -2.001637 -0.371843 1.669025 -0.438570 
6 -0.713544 -0.831154 -2.370232 -1.860761 -0.860757 


将 函数 跟 数 组 、 列 表 、 字 典 、Series 混 合 使 用 
也 不 是 问题 ， 因 为 任何 东西 最 终 都 会 被 转换 为 数 
组 : 


In [48]: key_list = ['one', 'one', 'Oone', 'two', 'two'] 


In [49]: people.groupby([len, key_list]).min() 
Out[491]: 
a b C d e 
3 one -0.539741 -1.296221 0.274992 -1.021228 -0.577087 
two 0.124121 0.302614 0.523772 0.000940 1.343810 
5 one 0.886429 -2.001637 -0.371843 1.669025 -0.438570 
6 two -0.713544 -0.831154 -2.370232 -1.860761 -0.860757 


根据 索引 级 列 分 组 


层次 化 索引 数据 集 最 方便 的 地 方 束 在 于 它 能 够 
根据 索引 级 别 进行 聚合 。 要 实现 该 目的 ， 通 过 level 
关键 字 传 入 级 别 编写 或 名 称 即 可 : 


In [50]: columns = 











pd.MultiIndex.from arrays([['US', 'US', US 
[1, 3, 5, 1, 3]], 


In [51]: hier_df = DataFrame(np.random.randn(4, 5), columns=cc 
In [52]: hier_df 
Out[521]: 
cty US JP 
tenor 1 3 5 1 3 
0 0.560145 -1.265934 0.119827 -1.063512 0.332883 
1 -2.359419 -0.199543 -1.541996 -0.970736 -1.307030 
2 0.286350 0.377984 -0.753887 0.331286 1.349742 
3 0.069877 0.246674 -0.011862 1.004812 1.327195 
In [53]: hier_df.groupby(level='cty', axis=1).count() 
Out[53] 
cty JP US 
© 2 3 
1 2 3 
2 2 3 

2 





3 3 
译注 1; 翻译 本 书 过 程 中 仍然 没有 。 


数据 聚合 


对 于 聚合 ， 我 指 的 是 任何 能 够 从 数组 产生 标量 
值 的 数据 转换 过 程 。 之 前 的 例子 中 我 已 经 用 过 一 
些 ， 比 如 mean、count、min 以 及 sum 等 。 你 可 能 想 
知道 在 GroupBy 对 象 上 调用 mean() 时 究 芝 发 生 了 什 
么 。 许 多 第 见 的 聚合 运算 〈 如 表 9-1 所 示 ) 都 有 束 
地 计算 数据 集 统计 信息 的 优化 实现 。 然 而 ， 并 不 是 
只 能 使 用 这 些 方法 。 你 可 以 使 用 自己 发 明 的 聚合 运 
算 ， 还 可 以 调用 分 组 对 象 上 已 经 定义 好 的 任何 方 
法 。 例 如 ，quantile 可 以 计算 Series 或 DataFrame 列 的 
样本 分 位 数 于 二 2 











In [54]: df 
Out[54] : 

datal data2 key1 key2 
0 -0.204708 1.393406 a one 
1 0.478943 0.092908 a two 
2 -0.519439 0.281746 b one 
3 -0.555730 0.769023 b two 
4 1.965781 1.246435 a one 


In [55]: grouped = df.groupby('key1') 


In [56]: grouped['data1' |] .quantile(0.9) 


Out[56]: 

key1 

a 1.668413 
b -0.523068 


虽然 quantile 并 没有 明确 地 实现 于 GroupBy， 但 


它 是 一 个 Series 方 法 ， 所 以 这 里 是 能 用 的 。 实 际 
上 ，GroupBy 会 高 效 地 对 Series 进 行 切 片 ， 然 后 对 各 
片 调用 piece.quantile(0.9)， 最 后 将 这 些 结果 组 装 成 
最 终结 果 。 


如 果 要 使 用 你 目 己 的 聚合 函数 ， 只 需 将 其 传 入 
aggregate 或 agg 方 法 即 可 : 


In [57]: def peak_to_peak(arr): 
i return arr.max() - arr.min() 


In [58]: grouped.agg(peak_to_peak) 


Out[58]: 

datal data2 
key1 
a 2.170488 1.300498 
b 0.036292 0.487276 


主意 ， 有 些 方法 (如 describe〉 也 是 可 以 用 在 
这 里 的 RE 它们 并 非 聚 合 运算 : 


In [59]: grouped.describe() 
Out[59 ] : 
datal data2 
key1 
a count 3.000000 3.000000 
mean 0.746672 0.910916 
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-0.555730 ,281746 


25% -0.546657 0.403565 


50% -0.537585 0.525384 
75% -0.528512 0.647203 
max -0.519439 0.769023 


在 后 面 关 于 分 组 级 运算 二 3 和 转换 的 那 一 节 
中 ， 我 将 详细 说 明 这 到 底 是 怎么 回 事 。 

注意 : 可 能 你 已 经 注意 到 了 ， 自 定义 聚合 函数 
要 比 表 9-1 中 那些 经 过 优化 的 函数 慢 得 多 。 这 是 因 
为 在 构造 中 间 分 组 数据 块 时 存在 非常 大 的 开销 〈 函 
数 调 用 、 数 据 重 排 等 ) 。 


表 9-1: 经 过 优化 的 groupby ”的 方法 





函数 名 说 明 

count 分 组 中 非 NA 值 的 数量 

sum 非 NA 值 的 和 

mean 非 NA 值 的 平均 值 

median 非 NA 值 的 算术 中 位 数 

std、var 无 偏 (分 母 为 n - 1) 标准 差 和 方差 
min、 max 非 NA 值 的 最 小 值 和 最 大 值 

prod 非 NA 值 的 积 

first、 last 第 一 个 和 最 后 一 个 非 NA 值 





译注 4: 这 里 应 该 是 “经 过 优化 的 GroupBy 的 方 
法 ”5 原文 有 充 。 


为 了 说 明 一 些 更 高 级 的 聚合 功能 ， 我 将 使 用 一 
个 有 关 和 餐馆 小 费 的 数据 集 。 我 是 在 R 语 言 的 reshape2 





包 中 得 到 该 数据 集 的 《可 以 在 本 书 的 GitHub 库 中 找 


到 ) 。 


一 本 有 关 商 业 统计 的 书 中 。 


之 后 ， 我 添加 了 一 个 表示 小 费 比例 的 列 tp_pct。 


In [60]: tips = pd.read csv('ch08/tips.csv') 


# 添加 “小 费 占 总 额 百分比 ”的 列 
In [61]: tips['tip_pct'] = tips['tip'] / tips['total bill'] 


In [62]: tips[:6] 


Out[62]: 


它 最 初出 现 于 Bryant 和 Smith 在 1995 年 编写 的 
通过 read_csv 将 其 加 载 


total bill tip sex smoker day time size tip_pc 
0 16.99 1.01 Female False Sun Dinner 2 0.05944 
1 10.34 1.66 Male False Sun Dinner 3 0.16054 
2 21.01 3.50 Male False Sun Dinner 3 0.1665e8 
3 23.68 3.31 Male False Sun Dinner 2 0.13978 
4 24.59 3.61 Female False Sun Dinner 4 0.1468C 
5 25.29 4.71 Male False Sun Dinner 4 0.18624 


面 同 列 的 多 函数 应 用 


我 们 已 经 看 到 ， 对 Series 或 DataFrame 列 的 聚合 
运算 其 实 就 是 使 用 aggregate J 或 
调用 诸如 mean、std 之 类 的 方法 。 然 而 ， 你 可 能 希 
te 让- 次 应 用 多 
个 函数 。 其 实 这 事 也 好 办 ， 我 将 通过 一 些 示例 来 进 
行 讲 解 。 首 先 ， 我 根据 sex 和 Smoker 对 tips 进 行 分 
组 : 


In [63]: grouped = tips.groupby(['sex', 'smoker']) 








注意 ， 对 于 表 9-1 中 的 那些 描述 统计 ， 可 以 将 
函数 名 以 字符 串 的 形式 传 入 


In [64]: grouped_pct = grouped[ 'tip_pct '] 





In [65]: grouped_pct.agg('mean ) 


Out[65] : 

SeX smoker 

Female False 0.156921 
True ©0.182150 

Male False 0.160669 
True 0.152771 


Name: tip_pct 


如 有 果 传 入 一 组 图 数 或 函数 名 ， 得 到 的 
DataFrame 的 列 就 会 以 相应 的 函数 命名 : 





In [66]: grouped_ pct.agg(['mean', 'std', peak_to_peak]) 
Out[66]: 
mean std peak_to_peak 

sex smoker 
Female False 0.156921 0©0.036421 0.195876 

True 0.182150 0.071595 0.360233 
Male False 0.160669 0.041849 0.220186 

True 0.152771 0.090588 0.674707 


你 并 非 一 定 要 接受 GroupBy 自 动 给 出 的 那些 列 
名 ， 特 别 是 lambda 函 数 ， 它 们 的 名 称 
是 '<lambda>'， 这 样 的 养 识 度 束 很 低 了 (通过 函数 
Hname 属 性 看 看 束 知 道 了 ) 。 如 果 传 入 的 是 一 个 由 
(name,function) 元 组 组 成 的 列表 ， 则 各 元 组 的 第 一 
个 元 素 束 会 被 用 作 DataFrame 的 列 名 《〈 可 以 将 这 种 
二 元 元 组 列表 看 做 一 个 有 序 映 射 ) : 








In [67]: grouped_pct.agg([(' foo '， 


Out[67]: 


Sex smoker 
Female False 
True 
False 
True 


Male 


foo 


0.156921 
0.182150 
0.160669 
0.152771 


bar 


0.036421 
0.071595 
0.041849 
0.090588 


'mean'), ('bar', 


np . 


std)]) 


对 于 DataFrame， 你 还 可 以 定义 一 组 应 用 于 全 
部 列 的 函数 ， 或 不 同 的 列 应 用 不 同 的 函数 。 假 设 我 
们 想 要 对 tip_pct 和 total_b 记 列 计 算 三 个 统计 信 ， 


In [68]: 
In [69]: 


In [70]: 
Out[70]: 


Sex smoker 
Female False 
True 
False 
True 


Male 








result 


functions = ['count', 


tip_pct 
count 


result = grouped[ 'tip_pct '， 


mean 


mean ' ， 


0.156921 
0.182150 
0.160669 
0.152771 


Max 


0.252672 
0.416667 
0.291990 
0.710345 


'max'] 


total bill 
count 


与 . 
De 


"total_bil1'].agg(functic 


nr 


18.105 
17.977 
19.791 
22.284 


如 你 所 见 ， 结 果 DataFrame 拥 有 层次 化 的 列 ， 


这 相当 于 分 别 对 各 列 进 和 


In [71]: 
Out[71]: 


sex smoker 
Female False 
True 


Male False 


count 


54 0， 
33 0， 
97 0， 


result['tip_pct'] 


mean 


156921 
182150 
160669 


一 有 目 又 人 
于 有 


条 组 猴 到 一 起 《〈 列 名 用 作 keys 参 数 ) 。 


Max 


0 .252672 
0.416667 
0.291990 


然后 用 concat 将 结 


True 


60 0.152771 0.710345 








跟前 面 一 样 ， 这 里 也 可 以 传 入 带 有 目 定义 名 称 


的 元 组 列表 : 


In [72]: ftuples = [('Durchschnitt', 


In [73]: grouped[ 'tip_pct '， 


Out[73]: 


sex smoker 
Female False 
True 
False 
True 


Male 


tip_pct 
Durchschnitt Abweichung 
0.156921 0 .001327 
0.182150 0.005126 
0.160669 0.001751 
0.152771 0 .008206 


'mean' ), 


'total_ bill'].agg(ftuples) 


total]l bill 
Durchschnitt 


18.105185 
17.977879 
19.791237 
22.284500 


('Abweichung', n 


Abweich 


53.092 
84.451 
76 .152 
98 .244 





现在 ， 假 设 你 想 要 对 不 同 的 列 应 用 不 同 的 函 
数 。 具 体 的 办 法 古 同 agg 传 入 一 个 从 列 名 映 冉 到 函 


数 的 字典 : 


In [74]: grouped.agg({'tip' : np.max, 'size' "Sum }) 
Out[74]: 
size tip 
sex smoker 
Female False 140 5.2 
True 74 6.5 
Male False 263 9.0 
True 150 10.0 
In [75]: grouped.agg({'tip_pct' ['min', 'max', 'mean', 'std' 
i 'Ssize' 'sum'}) 
Out[75]: 
tip_pct size 
min max mean std sum 
sex smoker 
Female False 0.056797 0.252672 0.156921 0.036421 140 
True 0.056433 0.416667 0.182150 0.071595 74 
Male False 0.071804 0.291990 0.160669 0.041849 263 


True 0.035638 0.710345 0.152771 0.090588 150 


只 有 将 多 个 函数 应 用 到 至 少 一 列 时 ， 
DataFrame 才 会 拥有 层次 化 的 列 。 


以 “无 索引 ”的 形 却 返回 聚合 数据 


到 目前 为 止 ， 所 有 示例 中 的 聚合 数据 都 有 由 唯 
一 的 分 组 键 组 成 的 索引 【可 能 还 是 层次 化 的 ) 。 由 
于 并 不 总 是 需要 如 此 ， 上 所 以 你 可 以 同 groupby 传 入 
as_index=False 以 禁用 该 功能 : 








In [76]: tips.groupby(['sex', 'smoker'], as_index=False).mean( 
Out[76]: 
sex smoker total bill tip size tip_pct 


0 Female False 18.105185 2.773519 2.592593 0.156921 
1 Female True 17.977879 2.931515 2.242424 0.182150 
2 Male False 19.791237 3.113402 2.711340 0.160669 
3 Male True 22.284500 3.051167 2.500000 0.152771 


当然 ， 对 结果 调用 reset index 也 能 得 到 这 种 形 
式 的 结果 。 


和 警告: groupby 的 这 种 用 法 比较 缺乏 灵活 性 。 
译注 2， 注意 ， 如 果 传 入 的 百 分 位 上 没有 值 ， 则 


quantile 会 进行 线性 插值 。 
译注 3: 也 束 是 “ 面 同 分 组 ”的 计算 。 


分 组 级 运算 和 转换 


聚合 只 不 过 是 分 组 运算 的 其 中 一 种 而 已 。 它 是 
数据 转换 的 一 个 特例 ， 也 就 是 说 ， 它 接受 能 够 将 一 
维 数组 简化 为 标量 值 的 函数 。 在 本 节 中 ， 我 将 介绍 
transform 和 apply 方 法 ， 它 们 能 够 执行 更 多 其 他 的 分 
sia Fs 


假设 我 们 想 要 为 一 个 DataFrame 添 加 一 个 用 于 
存放 各 索引 分 组 平均 值 的 列 。 一 个 办 法 是 先 聚 合 
合并 : 














In [77]: df 
Out[77]: 

datal data2 keyl1 key2 
0 -0.204708 1.393406 a one 
1 0.478943 0.092908 a two 
2 -0.519439 0.281746 b one 
3 -0.555730 0.769023 b two 
4 1.965781 1.246435 a one 


In [78]: ki means = df.groupby('key1').mean().add_prefix('mean 


In [79]: ki_ means 
Out[79] : 
mean_datal mean_data2 


key1 
a 0.746672 0.910916 
b -0.537585 0.525384 


In [80]: pd.merge(df, ki means, left_on='key1', right_index=Tr 


Out[80]: 
datal data2 key1 key2 mean_datai mean_data2 
0 -0.204708 1.393406 a one 0.746672 0.910916 


1 0.478943 0.092908 a two 0.746672 0.910916 


4 1.965781 1.246435 a one 0.746672 0.910916 
2 -0.519439 0.281746 b one -0.537585 0.525384 
3 -0.555730 0.769023 b two -0.537585 0.525384 


虽然 这 样 也 行 ， 但 是 不 太 灵 活 。 你 可 以 将 该 过 
程 看 做 利用 np.mean 函 数 对 两 个 数据 列 进行 转换 。 
再 以 本 章 前 面 用 过 的 那个 people DataFrame 为 例 ， 
这 次 我 们 在 GroupBy 上 使 用 transform 方 法 : 








In [81]: key = ['one', 'two', 'one', 'two', 'one'] 


In [82]: people.groupby(key).mean() 
Out[82]: 

a b C d e 
one -0.082032 -1.063687 -1.047620 -0.884358 -0.028309 
two 0.505275 -0.849512 0.075965 0.834983 0.452620 


In [83]: people.groupby(key).transform(np.mean) 
Out[83]: 


a b ct d e 
Joe 0.082032 -1.063687 -1.047620 -0.884358 -0.028309 
Steve 0.505275 -0.849512 0.075965 0.834983 0.452620 
Wes -0.082032 -1.063687 -1.047620 -0.884358 -0.028309 
Jim 0.505275 -0.849512 0.075965 0.834983 0.452620 
Travis 0.082032 -1.063687 -1.047620 -0.884358 -0.028309 


不 难看 出 ，transform 会 将 一 个 函数 应 用 到 各 个 
分 组 ， 然 后 将 结果 放置 到 适当 的 位 置 上 。 如 果 各 分 
组 产生 的 是 一 个 标量 值 ， 则 该 值 束 会 被 广播 出 去 。 
现在 ， 假 设 你 希望 从 各 组 中 减 去 平均 值 。 为 此 ， 我 
们 先 创 建 一 个 距 平 化 函数 (demeaning function) ， 
然后 将 其 传 给 transform: 


In [84]: def demean(arr): 
ws return arr - arr.mean() 








In [85]: demeaned = people.groupby(key).transform(demean) 


In [86]: demeaned 


out[86]: 

a b c d e 
Joe 1.089221 -0.232534 1.322612 1.113271 1.381226 
Steve 0.381154 -1.152125 -0.447807 0.834043 -0.891190 
Wes -0.457709 NaN NaN -0.136869 -0.548778 
Jim -0.381154 1.152125 0,447807 -0.834043 0.891190 
Travis -0.631512 0.232534 -1.322612 -0.976402 -0.832448 





你 可 以 检查 一 下 demeaned 现 在 的 分 组 平均 值 是 
售 为 0: 
In [87]: demeaned,groupby(key) .mean( ) 
Out[87] : 
abc d e 


one 
two 


0-0 0 0 0 
-0 © 0 0 0 

在 下 一 节 中 你 将 会 看 到 ， 分 组 距 平 化 操作 还 可 
以 通过 apply 实 现 。 


apply: 一 般 性 的 “ 拆 分 一 应 用 一 合并 ” 


跟 aggregate 一 样 ，transform 也 是 一 个 有 着 严格 
条 件 的 特殊 函数 : 传 入 的 函数 只 能 产生 两 种 结果 ， 
要 么 产生 一 个 可 以 广播 的 标量 值 (如 np.mean) ， 
要 么 产生 一 个 相同 大 小 的 结果 数组 。 最 一 般 化 的 
GroupBy 方 法 是 apply， 本 市 镜 余 部 分 将 重点 讲解 
它 。 如 图 9-1 所 示 ，apply 会 将 待 处 理 的 对 象 拆 分 成 
多 个 片段 ， 然 后 对 各 厂 段 调用 传 入 的 函数 ， 最 后 尝 


试 将 各 片段 组 合 到 一 起 。 


回 到 之 前 那个 小 费 数据 集 ， 假 设 你 想 要 根据 分 
组 选 出 最 高 的 5 个 tip_pct 值 。 首 先 ， 编 写 一 个 选取 指 
定 列 具 有 最 大 值 的 行 的 函数 译注 5; 








In [88]: def top(df, 


In [89]: top(tips, 


Out[89]: 

total bill 
109 14.31 
183 23.17 
232 11.61 
67 3.07 
178 9.60 
172 #25 


t 


OPPOOOBP 


n=6) 


ip 


.O00 
.50 
.39 
.O00 
.00 
,15 


n=5, 


Fe 


Fe 
Fe 


column="'tip_pct'): 
return df.sort_index(by=column)[-n:] 


Sex 
male 
Male 
Male 
male 
male 
Male 


smoker 
True 
True 
False 
True 
True 
True 


day 
Sat 
Sun 
Sat 
Sat 
Sun 
Sun 


time 
Dinner 
Dinner 
Dinner 
Dinner 
Dinner 
Dinner 





size 


DOPDOEAD 


现在 ， 如 果 对 smoker 分 组 并 用 该 函数 调用 
apply， 残 会 得 到 : 


In [90]: tips.groupby('smoker').apply(top) 


Out[90]: 
total_ bill 
smoker 
No 88 24.71 
185 20.69 
51 10 .29 
149 51 
232 11.61 
Yes 109 14.31 
183 23.17 
67 3.07 
178 9.60 
172 T2535 


OO 上 DNOC OJOI 


tip 


sex smoker 


Male 
Male 
Female 
Male 
Male 
Female 
Male 
Female 
Female 
Male 


False 
False 
False 
False 
False 
True 
True 
True 
True 
True 


day 


Thur 
Sun 
Sun 

Thur 
Sat 
Sat 
Sun 
Sat 
Sun 
Sun 


time 


Lunch 
Dinner 
Dinner 

Lunch 
Dinner 
Dinner 
Dinner 
Dinner 
Dinner 
Dinner 


OO 


tip_ 
,279 
.28C 
.291 
“325 
,416 
.71C 


Siz 


这 里 发生 了 什么 ? top 函 数 在 DataFrame 的 各 个 
片段 上 调用 ， 然 后 结果 由 pandas.concat 组 装 到 一 
起 ， 并 以 分 组 名 称 进 行 了 标记 。 于 是 ， 最 终结 果 残 
有 了 一 个 层次 化 和 引 ， 其 内 层 索 引 值 来 自 原 


Datakrame。 
如 果 传 给 apply 的 函数 能 够 接受 其 他 参数 或 关键 
字 ， 则 可 以 将 这 些 内 容 放 在 函数 名 后 面 一 并 传 入 : 


In [91]: tips.groupby(['smoker', 'day']).apply(top, n=1, colur 
Out[911]: 














total bill tip sex smoker day tim 

smoker day 
No Fri 94 22.75 3.25 Female False Fri Dinne 
Sat 212 48.33 9.00 Male False Sat Dinne 
Sun 156 48 ,17 5.00 Male False Sun Dinne 
Thur 142 41.19 5.00 Male False Thur Lunc 
Yes Fri 95 40.17 4.73 Male True Fri Dinne 
Sat 170 50.81 10.00 Male True Sat Dinne 
Sun 182 45.35 3.50 Male True Sun Dinne 
Thur 197 43 ,11 5.00 Female True Thur Lunc 


注意 : ” 除 这 些 基本 用 法 之 外 ， 能 否 充 分 发 挥 
apply 的 威力 很 大 程度 上 取决 于 你 的 创造 力 。 传 入 的 
那个 函数 能 做 什么 全 由 你 说 了 和 军 ， 它 只 震 返 回 一 11 
pandas 对 象 或 标量 值 即 可 。 本 章 后 续 部 分 的 示例 主 
要 用 于 讲解 如 何 利 用 groupby 解 决 各 种 各 样 的 问 


页 。 





可 能 你 已 经 想起 来 了 ， 之 六 我 在 GroupBy 对 象 
上 调用 过 describe: 


In [92]: result = tips.groupby('smoker')['tip_pct'].describe() 


In [93]: result 


Out[93]: 

smoker 

No count 151.000000 
mean 0.159328 
std 0.039910 
min 0.056797 
25% 0.136906 
50% 0.155625 
75% 0.185014 
max 0.291990 

Yes count 93.000000 
mean 0.163196 
std 0.085119 
min 0.035638 
25% 0.106771 
50% 0.153846 
75% 0.195059 
max 0.710345 


In [94]: result.unstack('smoker') 


Out[941]: 

smoker No Yes 
count 151.000000 93.000000 
mean 0.159328 0.163196 
std 0.039910 0.085119 
min 0.056797 0.035638 
25% 0.136906 0.106771 
5O% 0.155625 0.153846 
75% 0.185014 0.195059 
max 0.291990 0.710345 





在 GroupBy 中 ， 当 你 调用 诸如 describe 之 类 的 方 
法 时 ， 实 际 上 只 是 应 用 了 下 面 两 条 代码 的 快捷 方式 
而 已 : 


f = lambda x: x.describe() 
grouped.apply(f) 





花 止 分 组 键 


从 上 面 的 例子 中 可 以 看 出 ， 分 组 键 会 跟 原 始 对 





象 的 索引 共同 构成 结果 对 象 中 的 层次 化 索引 。 将 
group_keys=False 传 入 groupby 即 可 禁止 该 效果 : 


In [95]: tips.groupby('smoker' 


Out[95]: 

total_ bill 
88 24.71 
185 20.69 
51 10 .29 
149 7.51 
232 11.61 
109 14.31 
183 23.17 
67 3.07 
178 9.60 
172 7.25 


分 位 数 和 桶 分 析 


我 曾 在 第 7 章 中 讲 过 ，pandas 有 一 些 能 根据 指 





OO 上 NDNDOC OO 


Sex 
Male 
Male 

Female 
Male 
Male 

Female 
Male 

Female 

Female 
Male 


smoker 


False 
False 
False 
False 
False 
True 
True 
True 
True 
True 





day 


Thur 


Sun 
Sun 


Thur 


Sat 
Sat 
Sun 
Sat 
Sun 
Sun 


; group_keys=False).apply(top) 


time 
Lunch 
Dinner 
Dinner 
Lunch 
Dinner 
Dinner 
Dinner 
Dinner 
Dinner 
Dinner 


记 P 记 上 上 上 NO NS 
OOOOOOOOOoOoo 


tir 


22 
24 
25 
26 
29 
27 
28 
32 
41 
71 


定 面 元 或 样本 分 位 数 将 数据 拆 分 成 多 块 的 工具 〈 比 
如 cut 和 dcut) 。 将 这 些 函 数 跟 groupby 结 合 


能 非常 轻松 地 实现 对 数据 集 的 桶 (bucket)〉 或 分 位 


数 〈guantile》 分 析 了 。 以 下 面 这 个 简单 的 随机 数据 


集 为 例 ， 我 们 利用 cut 将 其 疼 入 长 度 相 等 的 桶 中 : 


In [96]: frame = DataFrame({'datal': np.random.randn(1000), 


"data2': np.random.randn(1000)}) 


In [97]: factor = pd.cut(frame.datai, 4) 


In [98]: factor[:10] 

Out[98]: 

Categorical: 

array([(-1.23, 0.489], (-2.956, -1.23], (-1.23, 0.489], (0.48e 
(-1.23, 0.489], (0.489, 2.208], (-1.23, 0.489], (-1.23, 
(0.489, 2.208], (0.489, 2.208]], dtype=object) 

Levels (4): Index([(-2.956, -1.23], (-1.23, 0.489], (0.489, 2. 

(2.208, 3.928]], dtype=object) 


由 cut 返 回 的 Factor 对 象 可 直接 用 于 groupby。 
此 ， 我 们 可 以 像 下 和 面 这 样 对 data2 做 一 些 统计 计算 : 
In [99]: def get_ stats(group): 
we return {'min': group.min(), 'max': group.max(), 
'count': group.count(), 'mean': group.mea 


In [100]: grouped = frame.data2.groupby(factor) 


In [101]: grouped.apply(get_stats).unstack() 


Out [101]: 

count max mean min 
datal 
(-1.23, 0.489|] 598 3.260383 -0.002051 -2.989741 
(-2.956, -1.23] 95 1.670835 -0.039521 -3.399312 
(0.489, 2.208|] 297 2.954439 0.081822 -3.745356 
(2.208, 3.928| 10 1.765640 0©0.024750 -1.929776 


这 些 都 是 长 度 相 等 的 桶 。 要 根据 样本 分 位 数 得 
到 大 小 相等 的 桶 ， 使 用 qcut 即 可 "6。 传 入 
labels=False 即 可 只 获取 分 位 数 的 编号 。 
# 返回 分 位 数 编 号 
In [102]: grouping = pd.qcut(frame.datai, 10, labels=False) 
In [103]: grouped = frame.data2.groupby(grouping) 


In [104]: grouped.apply(get_stats).unstack() 
Out[104] : 


count max mean min 


0 100 1.670835 -0.049902 -3.399312 
1 100 2.628441 0.030989 -1.950098 
2 100 2.527939 -0.067179 -2.925113 
3 100 3.260383 0.065713 -2.315555 
4 100 2.074345 -0.111653 -2.047939 
5 100 2.184810 0.052130 -2.989741 
6 100 2.458842 -0.021489 -2.223506 
7 100 2.954439 -0.026459 -3.056990 
8 100 2.735527 0.103406 -3.745356 
9 100 2.377020 0.220122 -2.064111 


示例 : 用 特定 于 分 组 的 值 填充 缺失 值 


对 于 缺失 数据 的 清 理工 作 ， 有 时 你 会 用 dropna 
将 其 滤 除 ， 而 有 时 则 可 能 会 希望 用 一 个 固定 值 或 由 
数据 集 本 身 所 衍生 出 来 的 值 去 真 充 NA 值 。 这 时 束 
得 使 用 名 na 这 个 工具 了 。 在 下 面 这 个 例子 中 ， 我 用 
平均 值 去 填充 NA 值 : 


In [105]: s = Series(np.random.randn(6)) 





In [106]: s[::2] = np,nan 


In [107]: s 
Out[107]: 

0 NaN 
1 -0.125921 
2 NaN 
3 -0.884475 
4 NaN 
5 0.227290 


In [108]: s.fillna(s.mean()) 
Out[108]: 
0 -0.261035 
1 -0.125921 
2 -0.261035 


假设 你 :需要 对 个 同 的 分 组 党 充 个 同 的 倡 。 可 能 


你 已 经 猜 圣 


了， 只 需 将 数据 分 组 ， 并 使 用 apply 和 一 


个 能 够 对 各 数据 块 调 用 fillna 的 函数 即 可 。 下 面 是 一 
些 有 关 关 国 几 个 州 的 示例 数据 ， 这 些 州 义 被 分 为 东 


部 和 西部 : 
In LDO 


In [110]: 
In [111]: 
In [112]: 


In [113]: 
Out[113]: 
Ohio 

New York 
Vermont 
Florida 
Oregon 
Nevada 
California 
Idaho 


In [114]: 
Out[114]: 


East -0. 
West 0 ， 


states = ['Ohio', 'New York', 'Vermont', 'Florida', 
'Oregon', 'Nevada', 'California', 'Idaho'] 


group_key = ['East'] * 4+ ['west'] * 4 

data = Series(np.random.randn(8), index=states) 
data[['Vermont', 'Nevada', 'Idaho']] = np.nan 
data 


© .922264 
-2.153545 


data.groupby(group_key).mean() 


535707 
717926 


我 们 可 以 用 分 组 平均 值 去 填充 NA 值 ， 如 下 所 


人 小: 


In [115]: fill mean = lambda g: g.fillna(g.mean()) 


In [116]: data.groupby(group_key).apply(fill mean) 


Out[116]: 

Ohio © .922264 
New York -2.153545 
Vermont -0.535707 
Florida -0.375842 
Oregon 0.329939 
Nevada 0.717926 
California 1.105913 
Idaho 0.717926 





此 外 ， 也 可 以 在 代码 中 预定 义 各 组 的 填充 值 。 
由 于 分 组 具有 一 个 name 属 性 ， 所 以 我 们 可 以 拿 来 用 
一 下 : 


In [117]: fill values = {'East': 0.5, 'West': -1} 
In [118]: fill func = lambda g: g.fillna(fill values[g.name]) 


In [119]: data.groupby(group_key).apply(fill func) 


Out [119 ] : 

Ohio 0 .922264 
New York -2.153545 
Vermont 0.500000 
Florida -0.375842 
Oregon 0.329939 
Nevada -1.000000 
California 1.105913 
Idaho -1.000000 


示例 :随机 采样 和 排列 


假设 你 想 要 从 一 个 大 数据 集中 随机 抽取 样本 以 
进行 驼 特 卡 罗 模 拟 (Monte Carlo simulation ) 或 其 
他 分 析 工 作 。 “抽取 ”的 方式 有 很 多 ， 其 中 一 些 的 效 





率 会 比 其 他 的 高 很 多 。 一 个 办 法 是 ， 选 取 
np.random.permutation(N) 的 前 K 个 元 素 ， 其 中 N 为 完 
整数 据 的 大 小 ，K 为 期 望 的 样本 大 小 。 作 为 一 个 更 
下 
方式 : 











# 红 桃 (Hearts) 、 黑 桃 (Spades) 、 梅 花 (Clubs) 、 方 厂 (Diamonds) 
suits = ['H', 'S', 'C', 'D'] 
card val = (range(1, 11) + [10] * 3) * 4 
base _names = ['A'] + range(2, 11) + ['J', 'K', 'Q'] 
cards = [] 
for suit in ['H', 'S', 'C', 'D']: 
cards.extend(str(num) + suit for num in base_names) 


deck = Series(card_ val, index=cards) 


现在 我 有 了 一 个 长 度 为 52 的 Series， 其 索引 为 
牌 名 ， 值 则 是 21 点 或 其 他 游戏 中 用 于 计 分 的 点 数 
(为 了 简单 起 见 ， 我 当 A 的 点 数 为 1) : 


In [121]: deck[:13] 

Out [121] : 

AH 
2H 
3H 
4H 
5H 
6H 
7H 
8H 
9H 
10H 
JH 
KH 
QH 





大户 PP 
OOGeeoo、 DJ 人 wmwN 


现在 ， 根 据 我 上 面 所 讲 的 ， 从 整 副 牌 中 抽出 5 
张 ， 代 码 如 下 : 


In [122]: def draw(deck, n=5): 
pe return deck.take(np.random.permutation(len(deck) 


In [123]: draw(deck) 
Out[123]: 


入 器 
G@) 工 
[| 
DOmop 


假设 你 想 要 从 每 种 花色 中 随机 抽取 两 张 牌 。 由 
于 化 色 是 牌 名 的 最 后 一 个 字符 ， 所 以 我 们 可 以 据 此 
进行 分 组 ， 并 使 用 apply: 

















In [124]: get_suit = Iambda card: card[-1] # 只 要 最 后 一 个 字母 就 可 


In [125]: deck.groupby(get_suit).apply(draw, n=2) 
Out[125]: 
C 2C 


口 
和 
口 
[| 


工 
pa 
工 
[| 
和 NWOWOWON 





# 男 一 种 办 法 
In [126]: deck.groupby(get_suit, group_keys=False).apply(draw, 
Out[126]: 
KC 10 
JC 10 
AD 1 


5 
5H 5 
6 


7S 7 
KS 10 


示例 : 分 组 加 权 平 均 数 和 相关 系数 


根据 groupby 的 “ 拆 分 一 应 用 一 合并 ”学 式 ， 
DataFrame 的 列 与 列 之 间或 两 个 Series 之 间 的 运算 
《比如 分 组 加 权 平 均 ) 成 为 一 种 标准 作业 。 以 下 面 


值 : 


In [127]: df 


In [128]: df 
Out[128 ] : 
Category 


~IODIO 上 上 mh 品 
ooo 


1 1 1 1 
OOOOOoOopPPpPp 





这 个 数据 集 为 例 ， 它 含有 分 组 键 、 值 以 及 一 些 权重 


DataFrame({'category': ['a', 'a', 'a', 'a', 'b' 
'data': np.random.randn(8), 
'weights': np.random.rand(8)}) 


data weights 
561587 0.957515 
219984 0.347267 
482239 0.581362 
315667 0.217091 
047852 0.894406 
454145 0.918564 
556774 0.277825 
253321 0.955905 


然后 可 以 利用 category 计 算 分 组 加 权 平 均 数 : 


In [129]: grouped = df.groupby( "category  ) 


In [130]: get_wavg = lambda g: np.average(g['data'], weights=o 


In [131]: grouped.apply(get_wavg) 


Out[131] : 
category 


0.811643 
-0.122262 


这 个 例子 比较 无 聊 ， 所 以 再 看 一 个 稍微 实际 点 
的 例子 一 一 来 自 Yahool!Finance 的 数据 集 ， 其 中 含有 
标准 普尔 500 指 数 〈SPX 字 段 ) 和 几 只 股票 的 收盘 
价 : 


In [132]: close px = pd.read_cSsv( "cho09/stock_px,.csv'，parse_da 


5 几 





In [133]: close_ px 

Out[133]: 

<class 'pandas.core.frame.DataFrame'> 

DatetimeIndex: 2214 entries, 2003-01-02 00:00:00 to 2011-10-14 
Data columns: 

AAPL 2214 non-null values 

MSFT 2214 non-null values 

XOM 2214 non-null values 

SPX 2214 non-null values 

dtypes: float64(4) 


In [134]: close px[-4:] 
Out[134]: 

AAPL MSFT XOM SPX 
2011-10-11 400.29 27.00 76.27 1195.54 
2011-10-12 402.19 26.96 77.16 1207.25 
2011-10-13 408.43 27.18 76.37 1203.66 
2011-10-14 422.00 27.27 78.11 1224.58 


来 做 一 个 比较 有 趣 的 任务 : 计算 一 个 由 日 收益 
率 〈 通 过 百分数 变化 计算 ) 与 SPX 之 间 的 年 度 相 关 
系数 组 成 的 DataFrame。 下 面 是 一 个 实现 办 法 ; 


In [135]: rets = close px.pct_change().dropna() 
In [136]: spx_corr = lambda x: x.corrwith(x['SPX']) 


In [137]: by_year = rets.groupby(lambda x: x.year) 


In [138]: by_year.apply(spx_corr) 
Out[138 ] : 


AAPL MSFT XOM SPX 
2003 0.541124 0.745174 ©0.661265 1 
2004 0.374283 0.588531 0.557742 1 
2005 0©0.467540 0.562374 0.631010 1 
2006 0.428267 0.406126 0©0.518514 1 
2007 0.508118 0.658770 0.786264 1 
2008 0.681434 0.804626 0.828303 1 
2009 0.707103 0.654902 0,.797921 1 
2010 0.710105 0.730118 0.839057 1 
2011 0.691931 0.800996 0.859975 1 


当然 ， 你 还 可 以 计算 列 与 列 之 间 的 相关 系数 : 


# 平 示 和 微软 的 年 度 相 关系 
In [139]: by_year.apply(lambda g: g['AAPL'].corr(g['MSFT"])) 


Out[139]: 

2003 ©0.480868 
2004 0.259024 
2005 0 .300093 
2006 0.161735 
2007 0.417738 
2008 ©0.611901 
2009 0.432738 
2010 0.571946 
2011 0.581987 


示例 : 和 面 问 分 组 的 线性 回归 


顺 看 上 一 个 例子 继续 ， 你 | 以 用 groupby 执 行 
更 为 复 森 的 分 组 统计 分 析 ， 只 要 疯 数 返回 的 是 
pandas 对 象 或 标量 值 妈 可。 例如 ， 我 可 以 定义 下 面 
这 个 regress 水 数 〈 利 用 statsmodels 库 ) 对 各 数据 块 
执行 普通 最 小 二 乘法 (Ordinary Least Squares， 


OLS) 回归 : 


import statsmodels.api as sm 
def regress(data, yvar, xvars): 
Y = data[yvar] 
X = data[xvars] 
X[ 'intercept '] = 1. 
result = Sm,.OLS(Y，X),fit() 
return result.params 


现在 ， 为 了 按 年 计算 AAPL 对 SPX 收 益 率 的 线 
性 回归 ， 我 执行 : 


In [141]: by_year.apply(regress, 'AAPL', ['SPX']) 


Out[141]: 
2003 1.195406 0. 
2004 1.363463 0. 
2005 1.766415 0 ， 
2006 1.645496 0. 
2007 1.198761 0. 
2008 0.968016 -0. 
2009 0.879103 0 ， 
2010 1.052608 0 . 
2011 0.806605 0 . 
SO 下 下 SS 
译注 5: 原文 比较 
人 [3 
7 下 
任 ; 半 06: 


相等 ”。 


SPX intercept 


000710 
004201 
003246 
000080 
003438 
001110 
002954 
001261 
001514 


掏 口 ， 其 实 就 是 “在 指定 列 找 出 最 








然后 把 这 个 值 所 在 的 行 选取 出 来 ”。 
促 充 说 明 一 下 。“ 长 度 相等 的 桶 ” 指 的 古 “ 区 
间 大 小 相等 ”,， “大 小 相等 的 桶 ” 指 的 是 “数据 点 数量 


透视 表 和 交叉 表 


透视 表 (pivot table) 是 各 种 电子 表格 程序 和 其 
他 数据 分 析 软 件 中 一 种 第 见 的 数据 汇总 工具 。 它 根 
据 一 个 或 多 个 键 对 数据 进行 聚合 ， 并 根据 行 和 列 上 
的 分 组 键 将 数据 分 配 到 各 个 矩形 区 域 中 。 在 Python 
和 pandas 中 ， 可 以 通过 本 章 所 介绍 的 groupby 功 能 以 
及 【能 够 利用 层次 化 索引 的 ) 重 塑 运算 制作 透视 
表 。DataFrame 有 一 个 pivot_table 方 法 ， 此 外 还 有 一 
个 顶级 的 pandas.pivot_table 函 数 。 除 能 为 groupby 提 
供 便利 之 外 ，pivot_table 还 可 以 添加 分 项 小 计 ( 也 
叫做 margins) 。 


回 到 小 费 数据 集 ， 假 设 我 想 要 根据 Sex 和 
smoker 计 算 分 组 平均 数 〈pivot_table 的 默认 聚合 类 
型 ) ， 并 将 sex 和 smoker 放 到 行 上 : 





In [142]: tips.pivot_table(rows=['sex', 'smoker']) 
Out [142]: 
size tip tip_pct total bill 
sex smoker 
Female No 2.592593 2.773519 0.156921 18.105185 
Yes 2.242424 2.931515 0.182150 17.977879 
Male No 2.711340 3.113402 0.160669 19.791237 
Yes 2.500000 3.051167 0.152771 22.284500 








这 对 groupby 来 说 也 是 很 简单 的 事情 。 现 在 ， 
假设 我 们 只 想 聚 合 tip_pct 和 size， 而 且 想 根据 day 进 


行 分 组 。 我 将 smoker 放 到 列 上 ， 把 day 放 到 行 上 : 


In [143]: tips.pivot table(['tip_pct', 


Out[143]: 


tip_pct 

smoker No 
Sex day 

Female Fri 0.165296 

Sat 0.147993 

Sun 0.165710 

Thur 0.155971 

Male Fri 0.138005 

Sat 0.162132 

Sun 0.158291 

Thur 0.165706 


还 可 以 对 这 个 表 作 进 一 步 的 处 理 ， 传 入 
margins=True 添 加 分 项 小 计 。 这 将 会 





In [144]: tips.pivot_tabJle(['tip_pct '， 
2 cols='smoker', margins=True) 


Out[144]: 
size 
smoker No 
sex day 
Female Fri 2.500000 
Sat 2.307692 
Sun 3.071429 
Thur 2.480000 
Male Fri 2.000000 
Sat 2.656250 
Sun 2.883721 
Thur 2.500000 


©OOOOOOO0o 


DDDDNDDODDODDDDD 


cols="'smoker') 


Yes 


,209129 
.163817 
,237075 
.163073 
.144730 
.139067 
.173964 
.164417 


NO 


size 
No 


500000 
307692 
071429 
480000 
000000 
656250 
883721 
500000 





Yes 


000000 
200000 
500000 
428571 
125000 
629630 
600000 
300000 


DDN 


All 


111111 
250000 
944444 
468750 
100000 
644068 
810345 
433333 


'size'], 


DODNDDNDDDDDODDD 


Yes 


000000 
200000 
500000 
428571 
125000 
629630 
600000 
300000 


rows=['sex', 


添加 标签 为 Al 
的 行 和 列 ， 其 值 对 应 于 单个 等 级 中 所 有 数据 的 分 组 
统计 。 在 下 面 这 个 例子 中 ，All 值 为 平均 数 : 不 单独 
考虑 烟 民 与 非 烟 民 (Al 列 ) ， 不 单独 考虑 行 分 组 两 
个 级 别 中 的 任何 单项 (Al 行 ) 。 


rsize'], 


©OOOOOOOoOoo 


.165296 
.147993 
.165710 
.155971 
.138005 
.162132 
.158291 
.165706 


OOOOOOOoOo 


rows=['sex', 


Yes 


,209129 
.163817 
,237075 
.163073 
.144730 
.139067 
.173964 


164417 


All 2.668874 2.408602 2.569672 0.159328 0.163196 


要 使 用 其 他 的 聚合 函数 ， 将 其 传 给 aggfunc 即 
可 。 例 如 ， 使 用 count 或 len 可 以 得 到 有 关 分 组 大 小 
的 交叉 表 : 


In [145]: tips.pivot_ table('tip_pct', rows=['sex', 'smoker'], 
有 aggfunc=len, margins=True) 


Out[145]: 

day Fri Sat Sun Thur All 

Sex smoker 

Female No 2 13 14 25 54 
Yes 7 5 4 7 33 

Male No 2 32 43 20 97 
Yes 8 27 15 10 60 

All 19 87 76 62 244 





如 果 存 在 空 的 组 合 (也 就 是 NA) ， 你 可 能 会 
希望 设置 一 个 fill_value: 





In [146]: tips.pivot_table('size', rows=['time', 'sex', 'smoke 
: cols='day', aggfunc="'sum', fill_ val 


Out[146]: 
day Fri Sat Sun Thur 
time Sex smoker 
Dinner Female No 2 30 43 2 
Yes 8 338 10 0 
Male No 4 85 124 © 
Yes 4 71 39 © 
Lunch Female No 3 0 0 60 
Yes 6 © © 17 
Male No 0 0 0 50 
Yes 5 © © 23 


pivot_table 的 参数 说 明 请 参见 表 9-2。 


表 9-2: pivot_table 的 参数 
参数 名 说 明 
values 待 聚合 的 列 的 名 称 。 默 认 聚 合 所 有 数值 列 


rows 用 于 分 组 的 列 名 或 其 他 分 组 键 ， 出 现在 结果 透视 表 的 行 
cols ee 出 现在 结果 透视 表 的 列 
aggfunc 函数 或 函数 列表 ， 默 认为 'mean'。 可 以 是 任何 对 groupby 有 效 的 函数 


fill_value ei 
margins 添加 行 / 列 小 计 和 总 计 ， 默 认为 False 








区 义 表 :，crosstab 


交叉 表 (cross-tabulation， 简 称 crosstab〉 是 一 


种 用 于 计算 分 组 频率 的 特殊 透视 表 。 下 面 这 个 范例 


数据 很 典型 ， 取 目 交 叉 表 的 Wikipedia 页 : 


In [150]: data 
Out [150] : 
Sample Gender Handedness 
Female Right-handed 
Male Left-handed 
Female Right-handed 
Male Right-handed 
Male Left-handed 
Male Right-handed 
Female Right-handed 
Female Left-handed 
Male Right-handed 
Female Right-handed 


假设 我 们 想 要 根据 性 列 和 用 手 习 惯 


OOOORROONPO 
©OOONOOPRODNDPc 


[| 





对 这 上 段 数 据 


进行 统计 汇总 总 。 虽 然 可 以 用 pivot_ table 实 现 该 功 


能 ， 但 是 pandas.crosstab 逊 数 会 更 方便 : 


In [151]: pd.crosstab(data.Gender, data.Handedness, margins=Tr 


Out[151]: 

Handedness Left-handed Right-handed All 
Gender 

Female 1 4 5 
Male 2 3 5 
All 3 yk 10 


crosstab 的 前 两 个 参数 可 以 是 数组 、Series 或 数 
组 列表 。 再 比如 对 小 费 数据 集 : 


In [152]: pd.crosstab([tips.time，tips.day]，tips.smoker，margd 


Out[152 ] : 

smoker No Yes All 
time day 

Dinner Fri 3 9 12 


Sat 45 42 87 
Sun 57 19 76 
Thur 1 (©) 1 
Lunch Fri 1 6 7 
Thur 44 17 61 
All 151 93 244 


示例 : 2012 联 邦 选 举 委员 会 数据 库 


美国 联邦 选举 委员 会 友 布 了 有 关 政 治 竞 选 赞 助 
方面 的 数据 。 其 中 包括 赞助 者 的 姓名 、 职 业 、 雇 
主 、 地 址 以 及 出 资 额 等 信息 。 我 们 对 2012 年 美国 总 
统 大 选 的 数据 集 比 较 感 兴趣 
(Chttp:/www.fec.gov/disclosurep/PDownload.do) 。 
到 编写 本 书 时 为 止 〈2012 年 6 月 ) ， 涵 盖 全 美 各 州 
的 完整 数据 集 是 一 个 150MB 的 CSV 文 件 
(P00000001-ALL.csv) ， 我 们 先 用 pandas.read_csv 
将 其 加 载 进来 : 


In [13]: fec = pd.read csv('ch09/PO0000001-ALL.csv') 











In [14]: fec 
Out[141]: 
<class 'pandas.core.frame.DataFrame'> 


Int64Index: 1001731 entries, 0 to 1001730 
Data columns: 

cmte_id 1001731 non-null values 
cand_id 1001731 non-null values 
cand_nm 1001731 non-null values 
contbr_nm 1001731 non-null values 
contbr_city 1001716 non-null values 
contbr_st 1001727 non-null values 
contbr_zip 1001620 non-null values 
contbr_employer 994314 non-null values 
contbr_occupation 994433 non-null values 
contb_receipt_amt 1001731 non-null values 
contb_receipt_dt 1001731 non-null values 
receipt_desc 14166 non-null values 
memo_cd 92482 non-null values 
memo_text 97770 non-null values 
form_tp 1001731 non-null values 


file num 1001731 non-null values 
dtypes: float64(1), int64(1), object(14) 


该 DataFrame 中 的 记录 如 下 所 示 : 


In [15]: fec.ix[123456] 
Out[15]: 





cmte_id COO0431445 
cand_id P80003338 
cand_nm Obama, Barack 
contbr_nm ELLMAN, IRA 
contbr_city TEMPE 
contbr_st AZ 
contbr_zip 852816719 
contbr_employer ARIZONA STATE UNIVERSITY 
contbr_occupation PROFESSOR 
contb_receipt_amt 50 
contb_receipt_dt 01-DEC-11 
receipt_desc NaN 
memo_cd NaN 
memo_text NaN 
form_tp SA17A 
file_num 772372 


Name: 123456 


你 可 能 已 经 想 出 了 许多 办 法 从 这 些 况 选 赞助 数 
人 i 和 
在 接 下 来 的 内 容 中 介绍 几 种 不 同 的 分 析 工 作 (运用 
到 目前 为 止 已 经 学 到 的 找 术 ) ， 


个 难看 出 ， A Bs 因此 最 好 
把 它 加 进去 。 通 过 unique， 你 可 以 获取 全 部 的 候选 
人 人 名单 (注意 ，NumpPy 不 会 输出 信息 中 字符 串 两 侧 
的 引号 ) : 


In [16]: unidue_cands = fec.cand_nm.unique( ) 














In [17]: unique_cands 
Out[17]: 
array([Bachmann, Michelle, Romney, Mitt, Obama, Barack, 
Roemer, Charles E. 'Buddy' III, Pawlenty, Timothy, 
Johnson, Gary Earl, Paul, Ron, Santorum, Rick, Cain, 
Gingrich, Newt, McCotter, Thaddeus G, Huntsman, Jon, 
dtype=object) 


In [18]: unique_cands[2] 
Out[18]: 'Obama, Barack' 


最 简单 的 办 法 是 利用 字典 说 明 党 派 关系 “1; 


parties = {'Bachmann, Michelle': " Republican '， 
"Cain，Herman': " Republican '， 
'Gingrich, Newt': " Republican '， 
'Huntsman, Jon': 'Republican', 
'Johnson, Gary Earl': 'Republican', 
'McCotter, Thaddeus G': 'Republican', 
'Obama, Barack': 'Democrat', 
'Paul, Ron': 'Republican', 
'Pawlenty, Timothy': " Republican '， 
'Perry, Rick': Republican '， 
"Roemer, Charles E. "Buddy” III": " Republican '， 
"Romney， Mitt': ”Republican '， 
'Santorum, Rick': 'Republican'} 


现在 ， 通 过 这 个 映射 以 及 Series 对 象 的 map 方 


法 ， 你 可 以 根据 候选 人 姓名 得 到 一 组 觉 派 信息 : 


In [20]: fec.cand nm[123456:123461] 
Out[20]: 

123456 Obama, Barack 

123457 Obama, Barack 

123458 Obama, Barack 

123459 Obama, Barack 

123460 Obama, Barack 

Name: cand_nm 


He 
Pe 


In [21]: fec.cand nm[123456:123461].map(parties) 
Out[21] : 

123456 Democrat 

123457 Democrat 

123458 Democrat 

123459 Democrat 

123460 Democrat 

Name: cand_nm 


# 将 其 添加 为 一 个 新 列 
In [22]: fec['party'|] = fec.cand nm.map(parties) 


In [23]: fec['party'|].value_counts() 
Out[23]: 

Democrat 593746 

Republican 407985 


这 里 有 两 个 需要 注意 的 地 方 。 第 一 ， 该 数据 既 
包括 赞助 也 包括 退 蒜 人 负 的 出 资 额 〉: 


In [24]: (fec.contb_receipt_amt > 0).value_ counts() 


Out[241]: 
True 991475 
False 10256 








为 了 简化 分 析 过 程 ， 我 限定 该 数据 集 只 能 有 正 
的 出 资 额 : 


In [25]: fec = fec[fec.contb_receipt amt > 0] 


由 于 Barack Obama 和 Mitt Romney 是 最 主要 的 
两 名 候选 人 ， 所 以 我 还 专门 准备 了 一 个 子 集 ， 只 包 
含 针 对 他 们 两 人 的 苋 选 活动 的 赞助 信息 : 


In [26]: fec_ mrbo = fec[fec.cand nm.isin(['Obama, Barack', 'Rc 


根据 职业 和 雇主 统计 赞助 信息 


其 于 职业 的 赞助 信息 统计 是 男 一 种 经 常 被 研究 
的 统计 任务 。 例 如 ， 人 律师 们 更 倾 癌 于 资助 民主 觉 ， 
而 企业 主 则 更 倾 问 于 资助 共和 党。 你 可 以 不 相信 
我 ， 目 己 看 那些 数 握 就 知道 了 。 首 先 ， 根 据 职业 计 
算出 资 总 额 ， 这 很 简单 : 


In [27]: fec.contbr_occupation.value counts()[:10] 








Out[27]: 

RETIRED 233990 
INFORMATION REQUESTED 35107 
ATTORNEY 34286 
HOMEMAKER 29931 
PHYSICIAN 23432 
INFORMATION REQUESTED PER BEST EFFORTS 21138 
ENGINEER 14334 
TEACHER 13990 
CONSULTANT 13273 
PROFESSOR 12555 


不 难看 出 ， 许 多 职业 部 涉及 相同 的 基本 工作 类 
型 ， 或 者 同一 样 东西 有 多 种 变 体 。 下 面 的 代码 片段 
可 以 清理 一 些 这 样 的 数据 《将 一 个 职业 信息 映射 到 
妨 一 个 ) 。 注 意 ， 这 里 巧妙 地 利用 了 dict.get， 它 允 
许 没有 映射 关系 的 职业 也 能 “通过 >”; 


occ_mapping = { 





'INFORMATION REQUESTED PER BEST EFFORTS' : 'NOT PROVIDED', 
'INFORMATION REQUESTED' : 'NOT PROVIDED', 

"INFORMATION REQUESTED (BEST EFFORTS)' : 'NOT PROVIDED', 
'C.E.0.': 'CEO' 














# 如 条 没有 捉 供 相关 映射 ， 
occ_mapping.get(x, 
fec.contbr_occupation = 





f = lambda x: 


则 返回 x 





Xx) 


fec.contbr_occupation.map(f) 


我 对 雇主 信息 也 进行 了 同样 的 处 理 : 


emp_mapping = { 


'INFORMATION REQUESTED PER BEST EFFORTS' 


'INFORMATION REQUESTED' 


"SELF 


} 











'SELF-EMPLOYED', 
"SELF EMPLOYED' 


"SELF-EMPLOYED ' ， 


# 如 果 没 有 提供 相关 映射 ， 则 返回 x 








f = lambda x: 


emp_mapping.get(x, 


Xx) 


'NOT PROVIDED', 


'NOT PROVIDED', 


fec.contbr_employer = fec.contbr_employer .map(f) 


现在 ， 你 可 以 通过 pivot_table 根 据 党 派 和 职业 
对 数据 进行 聚合 ， 然 后 过 泪 掉 总 出 资 额 不 足 200 万 
美元 的 数据 : 


In [34]: by_occupation = fec.pivot_ table('contb_receipt_ amt', 

i rows="'contbr_occupati 
cols='party', aggfunc 

In [35]: over_2mm by_occupation[by_occupation.sum(1) > 2000C 

In [36]: over_2mm 

Out[36]: 

party Democrat Republican 

contbr_occupation 

ATTORNEY 11141982.97 7477194.430000 

CEO 2074974.79 4211040.520000 

CONSULTANT 2459912.71 2544725.450000 

ENGINEER 951525.55 1818373.700000 

EXECUTIVE 1355161.05 4138850 .090000 

HOMEMAKER 4248875.80 13634275.780000 

INVESTOR 884133.00 2431768 .920000 

LAWYER 3160478 .87 391224.320000 

MANAGER 762883.22 1444532.370000 


NOT PROVIDED 4866973.96 20565473.010000 


OWNER 1001567 ,36 2408286 .920000 
PHYSICIAN 3735124.94 3594320.240000 
PRESIDENT 1878509.95 4720923.760000 
PROFESSOR 2165071.08 296702.730000 
REAL ESTATE 528902 ,09 1625902.250000 
RETIRED 25305116.38 23561244.489999 
SELF-EMPLOYED 672393.40 1640252 .540000 





把 这 些 数 据 做 成 柱状 图 看 起 来 会 更 加 清楚 
Cbarh' 表 示 水 平 柱状 图 ， 如 图 9-2 所 示 )〉: 


In [38]: over_2mm.plot(kind='barh') 
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contbr_occupation 
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图 9-2: 对 各 和 浣 派 总 出 资 额 最 高 的 职业 


你 可 能 还 想 了 解 一 下 对 Obama 和 Romney 总 出 
资 额 最 高 的 职业 和 企业 。 为 此 ， 我 们 先 对 候选 人 进 
行 分 组 ， 然 后 使 用 本 半 前 面 介绍 的 那 种 求 取 最 大 值 
的 方法 : 





def get_top_amounts(group，Kkey，n=5) : 
totals = 


group.groupby(key)['contb_receipt_amt'].sum() 


# 根据 key 对 totals 进 行 降 序 排列 


return totals.order(ascending=False)[n:] 


然后 根据 职业 和 雇主 进行 聚合 : 


In [40]: grouped = fec mrbo.groupby('cand_nm') 

In [41]: grouped.apply(get_top_amounts, 'contbr_occupation', n 

Out[41]: 

cand_nm contbr_occupation 

Obama, Barack RETIRED 25305 
ATTORNEY 11141 
INFORMATION REQUESTED 4866 
HOMEMAKER 4248 
PHYSICIAN 3735 
LAWYER 316C 
CONSULTANT 2459 

Romney， Mitt RETIRED 11508 
INFORMATION REQUESTED PER BEST EFFORTS 11396 
HOMEMAKER 8147 
ATTORNEY 5364 
PRESIDENT 2491 
EXECUTIVE 230C 
CiE:;O' 1968 


Name: contb_receipt_amt 


In [42]: grouped.apply(get_top_amounts, 'contbr_employer', n=1 

Out[42]: 

cand_nm contbr_employer 

Obama, Barack RETIRED 22694 
SELF-EMPLOYED 1708C 
NOT EMPLOYED 8586 
INFORMATION REQUESTED 50532 
HOMEMAKER 2605 
SELF 1076 
SELF EMPLOYED 469 
STUDENT 318 
VOLUNTEER 257 
MICROSOFT 215 


Romney, 


Mitt 


INFORMATION REQUESTED PER BEST EFFORTS 12059 


RETIRED 11506 


HOMEMAKER 8147 
SELF-EMPLOYED 7405 
STUDENT 496 
CREDIT SUISSE 281 
MORGAN STANLEY 267 
GOLDMAN SACH & CO. 238 
BARCLAYS CAPITAL 162 
H.I.G. CAPITAL 13S 


Name: contb_receipt_amt 
对 出 资 额 分 组 


还 可 以 对 该 数据 做 男 一 种 非常 实用 的 分 析 : 利 
用 cut 函 数 根据 出 资 额 的 大 小 将 数据 离 艇 化 到 多 个 面 
元 中 : 

In [43]: bins = np.array([90, 1, 10, 100, 1000, 10000, 100000, 
In [44]: labels = pd.cut(fec mrbo.contb_receipt _ amt, bins) 


In [45]: labels 


Out[45] : 
Categorical: contb_receipt_amt 
array([(10, 100], (100, 1000], (100, 1000], ..., (1, 10], (10, 


(100, 1000]], dtype=object) 
Levels (8): Index([(0, 1], (1, 10], (10, 100], (100, 1000], (1 
(10000, 100000], (100000, 1000000], (1000000, 10000000]] 


然后 根据 候选 人 姓名 以 及 面 元 标签 对 数据 进行 


分 组 : 


In [46]: grouped = fec mrbo.groupby(['cand_nm', labels]) 


In [47]: grouped.size().unstack(0) 
Out[47]: 
cand_nm Obama, Barack Romney, Mitt 


contb_receipt_amt 


(0, 1] 493 77 
(1, 10] 40070 3681 
(10, 100] 372280 31853 
(100, 1000] 153991 43357 
(1000, 10000] 22284 26186 
(10000, 100000] 2 1 
(100000, 1000000] 3 NaN 
(1000000, 10000000] 4 NaN 


从 这 个 数据 中 可 以 看 出 ， 在 小 额 赞助 方面 ， 
Obama 获 得 的 数量 比 Romney 多 得 多 。 你 还 可 以 对 出 
资 额 求 和 并 在 面 元 内 规格 化 ， 以 便 图 形 化 显示 两 位 
候选 人 各 种 赞助 额度 的 比例 : 


In [48]: bucket_sums = grouped.contb_receipt_ amt.sum().unstack 





In [49]: bucket_sums 


Out[49]: 

cand_nm Obama, Barack Romney, Mitt 
contb_receipt_amt 

(0, 1] 318.24 77.00 
(1, 10] 337267 .62 29819 ,66 
(10，100 20288981 .41 1987783.76 
(100, 1000] 54798531.46 22363381.69 
(1000, 10000] 51753705.67 63942145 ,42 
(10000, 100000] 59100 .00 12700 .00 
(100000，1000000 1490683.08 NaN 
(1000000, 10000000] 7148839.76 NaN 


In [50]: normed_sums = bucket_sums.div(bucket_sums.sum(axis=1) 


In [51]: normed_sums 


Out[51] : 

cand_nm Obama, Barack Romney, Mitt 
contb_receipt_amt 

(0, 1] 0.805182 0.194818 
(1, 10] 0.918767 0.081233 
(10，100 0.910769 0.089231 
(100，1000 0.710176 0.289824 
(1000，10000 ] 0.447326 0.552674 


(10000, 100000] 0.823120 0.176880 
(100000, 1000000] 1.000000 NaN 
(1000000, 10000000] 1.000000 NaN 


a Teel normedssumsl salip or kan ah > Saceree Te 


我 排除 了 两 个 最 大 的 面 元 ， 因 为 这 些 不 是 由 个 
人 捐赠 的 。 最 终 的 结果 如 图 9-3 所 示 。 
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图 9-3: 两 位 候选 人 收 到 的 各 种 捐赠 额度 的 总 额 比 
例 


当然 ， 还 可 以 对 该 分 析 过 程 做 许多 的 提炼 和 改 
进 。 比 如 说 ， 可 以 根据 赞助 人 的 姓名 和 邮编 对 数据 
进行 聚合 ， 以 便 找 出 哪些 人 进行 了 多 次 小 额 捐 亚 ， 
哪些 人 又 进行 了 一 次 或 多 次 大 人 额 捐 亚 。 我 强烈 建议 
你 下 载 这 些 数 据 并 目 己 摸索 一 下 。 


根据 州 统计 和 锁 秆 助 信息 
首先 目 然 是 根据 候选 人 和 州 对 数据 进行 聚合 : 


In [53]: grouped = fec mrbo.groupby(['cand nm', "contbr_ st ']) 


In [54]: totals grouped.contb_receipt_amt.sum().unstack(0).f 
In [55]: totals = totals[totals.sum(1) > 100000] 


In [56]: totals[:10] 


Out[56]: 

cand_nm Obama, Barack Romney, Mitt 
contbr_st 

AK 281840.15 86204.24 
AL 543123.48 527303.51 
AR 359247.28 105556.00 
AZ 1506476.98 1888436 .23 
CA 23824984 .24 11237636 .60 
CO 2132429 .49 1506714.12 
CT 2068291.26 3499475.45 
DC 4373538 .80 1025137 .50 
DE 336669.14 82712.00 
FL 7318178.58 8338458.81 


如 果 对 各 行 除 以 鼠 赞 助 额 ， 束 会 得 到 各 候选 人 
在 各 州 的 总 赞助 额 比例 : 


In [57]: percent = totals.div(totals.sum(1), axis=0) 


In [58]: percent[:10] 


Out[58]: 

cand_nm Obama, Barack Romney, Mitt 
contbr_st 

AK 0.765778 0.234222 
AL 0.507390 0.492610 
AR 0.772902 0.227098 
AZ 0.443745 0.556255 
CA 0.679498 0.320502 


CO 0.585970 0.414030 
CT 0.371476 0.628524 
DC 0.810113 0.189887 
DE 0.802776 0.197224 
FL 0.467417 0.532583 


我 认为 在 地 图 上 看 这 些 数据 会 比较 有 意思 (第 

8 章 中 介绍 过 相关 技术 ) 。 在 找到 有 关 州 界 的 shape 
file (http://nationalatlas.gov/atlasftp.html? 
openChapters=chpbound) 并 稍微 学 习 一 下 matplotlib 
及 其 basemap 工 具 包 (Thomas Lecocq 的 博客 帮 了 我 
的 大 忙 尘 2) 之 后 ， 我 终于 用 下 面 这 段 代 码 画 出 了 刚 
才 算出 来 的 相对 百分比 : 这 六? 

from mpl_toolkits.basemap import Basemap, cm 

import numpy as np 

from matplotlib import rcParams 


from matplotlib.collections import LineCollection 
import matplotlib.pyplot as plt 




















from shapelib import ShaperFile 
import dbf1lib 


obama = percent['Obama, Barack'] 


fig = plt.figure(figsize=(12, 12)) 
ax = fig.add axes([0.1,0.1,0.8,0.8]) 


lllat = 21; urlat = 53; lllon = -118; urlon = -62 


m = Basemap(ax=ax, projection='stere', 
lon_0O=(urlon + lllon) / 2, lat_ 0=(urlat + lllat) / 
llcrnrlat=lllat, urcrnrlat=urlat, llcrnrlon=]llon, 
urcrnrlon=urlon, resolution="'1"') 

m.drawcoastlines() 

m.drawcountries() 


shp = ShapeFile('../states/statesp020') 


dbf = dbflib.open('../states/statesp020') 


for npoly in range(shp.info()[0]): 

# 在 地 图 上 绘制 彩色 多 边 形 

shpsegs = [|] 

shp_object = shp.read object(npoly) 

verts = shp_object.vertices() 

rings = len(verts) 

for ring in range(rings): 
lons, lats = zip(*verts[ring]) 
x, y = m(lons, lats) 
shpsegs.append(zip(x,y)) 
If ring == 0: 

shapedict = dbf.read_record(npoly ) 

name = Shapedict[' STATE '] 











lines = LineCollection(shpsegs,antialiaseds=(1,)) 


# state_to_code 字 典 ， 例 如 'ALASKA' -> 'AK', omitted 


try: 

per = obamal[lstate_ to_code[name.upper()]1] 
except KeyError: 

continue 


lines.set_facecolors('k') 
lines.set_alpha(0.75 * per) # 把 “百分比 ” 变 小 一 点 
lines.set_ edgecolors('k') 
lines.set_linewidth(0.3) 


plt. show() 


最 终结 果 如 图 9-4 所 示 。 











图 9-4: 汇集 了 所 有 赞助 统计 信息 的 美国 地 图 〈 颜 
色 越 深 表示 越 文 持 氏 主 和 党 ) 

注 1: 为 了 简单 起 见 ， 这 里 假设 Gary Johnson 是 一 名 

共和 和 澳 员 ， 虽 然 他 后 来 成 为 目 由 和 洗 的 候选 人 。 

2 

http://www.geophysique.be/2011/01/27/matplotlib- 

basemap-tutorial-07-shapefiles-unleached/。 

译注 7: 恬 愧 ， 折 腾 了 整整 两 天 ， 惕 是 没 做 出 来 。 

太 郁 间 了 ， 照 看 输入 痢 不 行 。 在 网 上 找 了 一 个 比较 

有 效 的 办 法 ， 不 过 由 于 时 间 太 紧 就 没完 成 希望 读 

0 以 给 更 多 

I 以下。 





第 10 章 ”时 间 序 列 


不 管 在 哪个 领域 中 (如 金融 学 、 经 济 学 、 和 生态 
学 、 神 经 科学 、 物 理学 等 ) ， 时 间 序 列 (time 
series) 数据 都 是 一 种 重要 的 结构 化 数据 形式 。 在 多 
个 时 间 点 观 穴 或 测量 到 的 任何 事物 都 可 以 形成 一 段 
时 间 序 列 。 很 多 时 间 序 列 是 固定 频率 的 ， 也 残 是 
说 ， 数 据点 是 根据 某 种 规律 定期 出 现 的 〈 比 如 每 15 
秒 、 每 5 分 钟 、 每 月 出 现 一 次 ) 。 时 间 序 列 也 可 以 
是 不 定期 的 。 时 间 序 列 数据 的 意义 取决 于 具体 的 应 
用 场景 ， 主 要 有 以 下 几 种 : 


:时 间 惟 (timestamp〉 ， 特 定 的 时 刻 。 


:固定 时 期 (period) ， 如 2007 年 1 月 或 2010 年 





-时 间 间 隅 (interval) ， 由 起 始 和 结束 时 间 戳 
表示 。 时 期 (period〉 可 以 被 看 做 间隔 (interval) 
的 特例 。 


实验 或 过 程 时 间 ， 每 个 时 间 扣 部 是 相对 于 特 
定 起 始 时 间 的 一 个 度量 。 例 如 ， 从 放 入 烤箱 时 起 ， 
每 秒 钟 饼干 的 直径 。 





本 章 主 要 讲解 前 3 种 时 间 序 列 。 许 多 技术 都 可 
用 于 处 理 实 验 型 时 间 友 列 ， 其 索引 可 能 是 一 个 整数 
或 浮 点 数 《〈 和 表示 从 实验 开始 算 起 已 经 过 去 的 时 
。 ee 时 间 鹤 进 
行 楷 引 的 。 


pandas 提 供 了 一 组 标准 的 时 间 序 列 处 理工 具 和 
数据 算法 。 因 此 ， 你 可 以 高 效 处 理 非常 大 的 时 间 序 
列 ， 轻 松 地 进行 切片 / 切 块 、 聚 合 、 对 定期 /不 定期 
的 时 间 序 列 进行 重 采 样 等 。 可 能 你 已 经 猜 到 了 ， 这 
些 醋 具 中 大 部 分 都 对 金融 和 经 济 数 据 尤 为 有 用 ， 但 
你 当然 也 可 以 用 它们 来 分 析 服 务 器 日 志 数 据 。 

注意 : 本 章 中 部 分 功能 和 代码 (比如 处 理 时 期 
的 那些 ) 用 到 了 已 经 俘 止 更 新 的 Scikits.timeseries 
座 。 译 注 1 


译注 1: 没 找到 2.7 的 ， 但 是 网 上 好 像 有 人 用 了 。 








日 期 和 时 间 数 据 类 型 及 工具 


Python 标准 库 包 含 用 于 日 期 (date) 和 时 间 
(time)〉 数据 的 数据 类 型 ， 而 且 还 有 日 历 方 面 的 功 
能 。 我 们 主要 会 用 到 datetime、time 以 及 calendar 模 
块 。datetime.datetime (也 可 以 人 简写 为 datetime) 是 
用 得 最 多 的 数据 类 型 : 


In [317]: from datetime import datetime 





In [318]: now = datetime.now() 


In [319]: now 
Out[319]: datetime.datetime(2012, 8, 4, 17, 9, 21, 832092) 


In [320]: now.year, now.month, now.day 
Out[320]: (2012, 8, 4) 


datetime 以 军 秒 形式 存储 日 期 和 时 间 。 
datetime.timedelta 表 示 两 个 datetime 对 象 之 则 的 时 间 
拳 : 


In [321]: delta = datetime(2011, 1, 7) - datetime(2008, 6, 24, 


In [322]: delta 

Out[322]: datetime.timedelta(926, 56700) 
In [323]: delta.days 

Out[323]: 926 

In [324]: delta.seconds 

Out[324]: 56700 


可 以 给 datetime 对 象 加 上 “(或 减 去 ) 一 个 或 多 


个 timedelta， 这 样 会 产生 一 个 新 对 象 : 


In [325]: from datetime import timedelta 
In [326]: start = datetime(2011, 1, 7) 


In [327]: start + timedelta(12) 
Out[327]: datetime.datetime(2011, 1, 19, ©0, 0) 


In [328]: start - 2 * timedelta(12) 
Out[328]: datetime.datetime(2010, 12, 14, ©0, 0) 


datetime 模 块 中 的 数据 类 型 参见 表 10-1。 虽 然 
本 章 主 要 讲 的 是 pandas 数 据 类 型 和 高 级 时 间 序 列 处 
理 ， 但 你 肯定 会 在 Python 的 其 他 地 方 遇 到 有 关 
datetime 的 数据 类 型 。 


表 10-1: datetime 模 块 中 的 数据 类 型 








类 型 说 明 

date 以 公历 形式 存储 日 历 日 期 (年 、 月 、 日 ) 

time 将 时 间 存 储 为 时 、 分 、 秒 、 毫 秒 

datetime 存储 日 期 和 时 间 

timedelta 表示 两 个 datetime 值 之 间 的 差 〈 日 、 秒 、 毫 秒 ) 





字符 串 和 datetime 的 相互 转换 


利用 str 或 strftime 方 法 〈 传 入 一 个 格式 化 字符 
叮 ) ，datetime 对 象 和 pandas 的 Timestamp 对 象 ( 稍 
后 束 会 介绍 〉 可 以 被 格式 化 为 字符 串 : 


In [329]: stamp = datetime(2011, 1, 3) 





In [330]: str(stamp) In [331]: stamp.strftime 
Out[330]: '2011-01-03 00:00:00' Out[331]: '2011-01-03" 


表 10-2 列 出 了 全 部 的 格式 化 编码 。 
datetime.strptime 也 可 以 用 这 些 格式 化 编码 将 字符 串 
转换 为 日 期 : 


In [332]: value = '2011-01-03， 


In [333]: datetime.strptime(value, '%Y-%m-%d ' ) 
Out[333]: datetime.datetime(2011, 1, 3, 0, 0) 


In [334]: datestrs = ['7/6/2011', '8/6/2011'] 


In [335]: [datetime.strptime(x, '%m/%d/%Y') for x in datestrs] 
Out[335]: [datetime.datetime(2011, 7, 6, 0, 0), datetime.datet 


datetime.strptime 是 通过 已 知 格式 进行 日 期 解析 
的 最 佳 方式 。 但 是 每 次 都 要 编写 格式 定义 是 很 麻烦 
的 事情 ， 尤 其 是 对 于 一 些 和 常见 的 日 期 格式 。 这 种 情 
况 下 ， 你 可 以 用 dateutil 这 个 第 三 方 包 中 的 
parser.parse 方 法 : 


In [336]: from dateutil.parser import parse 


In [337]: parse('2011-01-03') 
Out[337]: datetime.datetime(2011, 1, 3, 0, 0) 


dateutil 可 以 解析 几乎 所 有 人 类 能 够 理解 的 日 其 
表示 形式 半 主 2， 


In [338]: parse('Jan 31, 1997 10:45 PM') 
Out[338]: datetime.datetime(1997, 1, 31, 22, 45) 








在 国际 通用 的 格式 中 ， 日 通常 出 现在 月 的 前 
面 ， 传 入 dayfirst=True 即 可 解决 这 个 问题 : 


In [339]: parse('6/12/2011', dayfirst=True) 
Out[339]: datetime.datetime(2011, 12, 6, ©0, 0) 


pandas 通 种 是 用 于 处 理 成 组 日 期 电 ， 不 管 这 些 
日 期 是 DataFrame 的 轴 索 引 还 是 列 。 
可 以 解析 多 种 不 同 的 日 期 表示 形式 。 对 标准 日 期 格 
式 〈 如 ISO8601) 的 解析 非常 快 。 


In [340]: datestrs 
Out[340]: ['7/6/2011', '8/6/2011'] 





In [341]: pd.to_datetime(datestrs) 

Out[341]: 

<class 'pandas.tseries.index.DatetimeIndex'> 
[2011-07-06 00:00:00, 2011-08-06 00:00:00] 
Length: 2, Freq: None, Timezone: None 


它 还 可 以 处 理 缺 失 值 (None、 空 字符 串 等 ) : 


In [342]: idx = pd.to datetime(datestrs + [None]) 





In [343]: idx 


Out[343]: 
<class 'pandas.tseries.index.DatetimeIndex'> 
[2011-07-06 00:00:00,..., NaT] 


Length: 3, Freq: None, Timezone: None 


In [344]: idx[2] 
Out[344]: NaT 


In [345]: pd.isnull(idx) 
Out[345]: array([False, False, Truel], dtype=bool) 


一 从 


NaT (Nota Time) 是 pandas 中 时 间 惟 数据 的 
NA 值 。 


警告 : dateutil.parser 是 一 个 实用 但 不 完美 的 工 





比如 说 ， 


它 会 把 一 些 原本 不 是 日 期 的 字符 串 认 


作 是 日 期 《比如 "42" 会 被 解析 为 2042 年 的 今天 ) 。 








表 10-2: datetime 格 式 定义 (兼容 I SO C89) 

代码 “说明 

%Y 4 位 数 的 年 

%y 2 位 数 的 年 

%m 2 位 数 的 月 [01, 12] 

%d 2 位 数 的 日 [01, 31] 

表 10-2: datetime 格 式 定 义 (兼容 I SO C89) ( 续 ) 

代码 ”说 明 

%H 时 (24 小 时 制 ) [00, 23] 

%l 时 “(12 小 时 制 ) [01, 12] 

%M 2 位 数 的 分 [00, 59] 

%S 秒 [00, 61] ( 秒 60 和 61 用 于 闪 秒 ) 

%w 用 整数 表示 的 星期 几 [0 (星期 天 ) ，6] 

%U 每 年 的 第 几 周 [00, 53]。 星 期 天 被 认为 是 每 周 的 第 一 天 ， 每 年 第 一 个 星期 天 之 前 
的 那 几 天 被 认为 是 “第 0 周 ” 

%W 每 年 的 第 几 周 [00, 53]。 星 期 一 被 认为 是 每 周 的 第 一 天 ， 每 年 第 一 个 星期 一 之 前 
的 那 几 天 被 认为 是 “第 0 周 ” 

%z ”以 +HHMM 或 -HHMM 表 示 的 UTC 时 区 偏 移 量 ， 如 果 时 区 为 naive ， 则 返回 空 
字符 串 

%F ”%Y-%m-%d 简 写 形 式 ， 例 如 2012-4-18 于 4 

%D %m/%d/%y 简 写 形式 ， 例 如 04/18/12 





译注 3: 更 准确 一 点 地 讲 ， 应 该 是 时 间 对 象 ， 
而 不 是 时 区 。 时 间 对 象 有 naive 和 aware 之 分 ， 简 单 
地 说 ， 束 是 有 没有 人 为 调整 (比如 夏令 时 之 类 的 东 
加 》。 


译注 4: 应 该 是 2012-04-18 才 对 。 


datetime 对 象 还 有 一 些 特定 于 当前 环境 (位 于 
不 同 国家 或 使 用 不 同 语言 的 系统 ) 的 格式 化 选项 。 
例如 ， 德 语 或 法 语系 统 所 用 的 月 份 徐 写 陀 与 瑞 语 系 
统 所 用 的 不 同 。 


表 10-3: 特定 于 当前 环境 的 日 期 格式 

代码 ”说 明 

%a ”星期 几 的 简写 

%A ”星期 几 的 全 称 

%b ”月 份 的 简写 

%B ”月 份 的 全 称 

%c 完整 的 日 期 和 时 间 ， 例 如 “Tue 01 May 2012 04:20:57 PM” 

%p ”不 同 环境 中 的 AM 或 PM 

%x ”适合 于 当前 环境 的 日 期 格式 ， 例如， 在 美国 ，“May 1, 2012” 会 产生 
“05/01/2012” 

%X ”适合 于 当前 环境 的 时 间 格 式 ， 例 如 “04:24:12 PM” 











译注 2: 很 遗憾 ， 中 文 不 行 。 


时 间 序 列 基 础 


pandas 最 基本 的 时 间 序列 类 型 就 是 以 时 间 收 
〈 通 第 以 Python 字符 串 或 datatime 对 象 表 示 ) 为 索引 
的 Series: 








In [346]: from datetime import datetime 


In [347]: dates = [datetime(2011, 1, 2), datetime(2011, 1, 5), 
i datetime(2011, 1, 8), datetime(2011, 1, 10) 


In [348]: ts = Series(np.random.randn(6), index=dates) 


In [349]: ts 


Out[349]: 

2011-01-02 0.690002 
2011-01-05 1.001543 
2011-01-07 -0.503087 
2011-01-08 -0.622274 
2011-01-10 -0.921169 
2011-01-12 -0.726213 





这 些 datetime 对 象 实 际 上 是 被 放 在 一 个 
DatetimeIndex 中 的 。 现 在 ， 变 量 ts 就 成 为 一 个 
TimeSeries 了: 





In [350]: typel(ts) 
Out[350]: pandas.core.series.TimeSeries 


In [351]: ts.index 


Out[351]: 
<class 'pandas.tseries.index.DatetimeIndex'> 
[2011-01-02 00:00:00, ..., 2011-01-12 00:00:00] 


Length: 6, Freq: None, Timezone: None 


注意 : 没 必 要 显 式 使 用 TimeSeries 的 构造 函 
数 。 当 创建 一 个 带 有 DatetimeIndex 的 Series 时 ， 
pandas 就 会 知道 该 对 象 是 一 个 时 间 序 列 。 

跟 其 他 Series 一 样 ， 不 同 索 引 的 时 间 序 列 之 间 
的 算术 运算 会 目 动 按 日 期 对 齐 : 


In [352]: ts + ts[::2] 








Out[352]: 

2011-01-02 1.380004 
2011-01-05 NaN 
2011-01-07 -1.006175 
2011-01-08 NaN 
2011-01-10 -1.842337 
2011-01-12 NaN 


pandas 用 NumpPy 的 datetime64 数 据 类 型 以 纳 秒 
形式 存储 时 间 稚 : 


In [353]: ts.index.dtype 
Out[353]: dtype('datetime64[ns]') 
DatetimeIndex 中 的 各 个 标量 值 是 pandas 的 
Timestamp 对 象 : 


In [354]: stamp = ts.index[0] 


In [355]: stamp 
Out[355]: <Timestamp: 2011-01-02 00:00:00> 


只 要 有 需要 ，TimeStamp 可 以 随时 目 动 转换 为 
datetime 对 象 。 此 外 ， 它 还 可 以 存储 频率 信息 〈 如 


朱 有 的 话 ) ， 且 知道 如 何 执行 时 区 转换 以 及 其 他 操 
作 。 稍 后 将 对 此 进行 详细 讲解 。 


索引 、 选 取 、 子 集 构造 


由 于 TimeSeries 是 Series 的 一 个 子 类 ， 所 以 在 索 
引 以 及 数据 选取 方面 它们 的 行为 是 一 样 的 : 


In [356]: stamp = ts.index[2] 


In [357]: ts[stamp] 
Out[357]: -0.50308739136034464 


还 有 一 种 更 为 方便 的 用 法 : 传 入 一 个 可 以 被 解 
释 为 日 期 的 字符 串 。 


in [358]: ts['1/10/2011"] 
Out[358]: -0.92116860801301081 
In [359]: ts['20110110'] 
Out[359]: -0.92116860801301081 


对 于 较 长 的 时 间 序 列 ， 只 需 传 入 “年 ?或 “年 
月 * 即 可 轻松 选取 数据 的 切片 ; 


In longer_ts = Series(np.random.randn(1000), 
index=pd.date_range('1/1/2000', 


In [361]: longer_ts 
Out[361]: 

2000-01-01 0.222896 
2000-01-02 0.051316 
2000-01-03 -1.157719 
2000-01-04 0.816707 


VS 
党: 


2002-09-23 -0.395813 
2002-09-24 -0.180737 
2002-09-25 1.337508 
2002-09-26 -0.416584 
Freq: D, Length: 1000 


In [362]: longer_ts['2001'] 
Out[362]: 

2001-01-01 -1.499503 
2001-01-02 0.545154 
2001-01-03 0.400823 
2001-01-04 -1.946230 


2001-12-28 -1.568139 
2001-12-29 -0.900887 
2001-12-30 0.652346 
2001-12-31 0.871600 
Freq: D, Length: 365 
In [363]: longer_ts[ '2001-05 '] 
Out[363]: 

2001-05-01 1.662014 
2001-05-02 -1.189203 
2001-05-03 0.093597 
2001-05-04 -0.539164 


2001-05-28 -0.683066 
2001-05-29 -0.950313 
2001-05-30 0.400710 
2001-05-31 -0.126072 
Freq: D, Length: 31 


通过 日 期 进行 切片 的 方式 只 对 规则 Series 有 


In [364]: ts[datetime(2011, 1, 7):] 
Out[364]: 

2011-01-07 -0.503087 

2011-01-08 -0.622274 

2011-01-10 -0.921169 

2011-01-12 -0.726213 





由 于 大 部 分 时 间 序 列 数据 都 是 按照 时 间 先 后 排 
序 的， 因此 你 也 可 以 用 不 存在 于 该 时 间 序 列 中 的 时 
间 恰 对 其 进行 切片 〈 即 范围 答 询 ) : 


In [365]: ts 

Out[365]: 

2011-01-02 0.690002 
2011-01-05 1.001543 
2011-01-07 -0.503087 








2011-01-08 -0.,622274 
2011-01-10 -0.921169 
2011-01-12 -0.726213 
In [366]: ts['1/6/2011':'1/11/2011'] 


Out[366]: 

2011-01-07 -0.503087 
2011-01-08 -0.,622274 
2011-01-10 -0.921169 


跟 之 前 一 样 ， 这 里 可 以 传 入 字符 串 日 期 、 
datetime 或 Timestamp。 注 意 ， 这 样 切 片 所 产生 的 是 
源 时 间 序 列 的 视图 ， 跟 NumPy 数 组 的 切片 运算 是 一 
样 的 。 此 外 ， 还 有 一 个 等 价 的 实例 方法 也 可 以 截取 
两 个 日 期 之 间 TimeSeries: 

In [367]: ts.truncate(after='1/9/2011  ) 
out [367] : 

2011-01-02 0.690002 

2011-01-05 1.001543 


2011-01-07 -0.503087 
2011-01-08 -0.622274 


上 面 这 些 操作 对 DataFrame 也 有 效 。 人 例如， 对 
DataFrame 的 行进 行 索引 : 


In [368]: dates = pd.date_range( '1/1/2000' ，periods=100，Tfreq= 


In [369]: long_ df = DataFrame(np.random.randn(100, 4), 
Re index=dates, 
columns=['Colorado', 'Texas', '\ 


In [370]: long_df.ix['5-2001'] 
Out[370]: 

Colorado Texas New York Ohio 
2001-05-02 ,943479 -0.349366 0.530412 -0.508724 
2001-05-09 0.230643 -0.065569 -0.248717 -0.587136 
2001-05-16 -1.022324 1.060661 0.954768 -0.511824 
2001-05-23 -1.387680 0.767902 -1.164490 1.527070 
2001-05-30 0.287542 0.715359 -0.345805 0.470886 


市 有 香 复 索引 的 时 间 序 列 
在 东 些 应 用 场景 中 ， 可 能 会 存在 多 个 观测 数据 
落 在 同一 个 时 间 点 上 的 情况 。 下 面 浆 是 一 个 例子 : 


In [371]: dates = pd.DatetimeIndex(['1/1/2000', '1/2/2000', '1 
ee '1/3/2000']) 


© 





In [372]: dup_ts = Series(np.arange(5), index=dates) 


In [373]: dup_ts 
Out[373] : 

2000-01-01 
2000-01-02 
2000-01-02 
2000-01-02 
2000-01-03 


通过 检查 索引 的 is_unique 属 性 ， 我 们 就 可 以 知 
违 它 是 不 是 唯一 的 : 


In [374]: dup_ts.index,.is_unidue 
Out[374]: False 


ODPO 


对 这 个 时 间 友 列 进行 对 引 ， 要 么 产生 标量 值 ， 
要 么 产生 切 厂 ， 具 体 要 看 所 选 的 时 间 扣 是 合 重 复 : 


In [375]: dup_ts["173720007] # 不 重复 
Out[375]: 4 

















In [376]: dup_ts['1/2/2000'] # 重复 
Out[376]: 

2000-01-02 1 

2000-01-02 2 

2000-01-02 3 


假设 你 想 要 对 具有 非 唯 一 时 间 惟 的 数据 进行 聚 
合 。 一 个 办 法 是 使 用 groupby， 并 传 入 level=0 (过 
引 的 唯一 一 层 ! ) : 


In [377]: grouped = dup_ts.groupby(level=0) 





In [378]: grouped.mean() In [379]: grouped.count() 
Out[378]: Out[379]: 

2000-01-01 0 2000-01-01 1 
2000-01-02 2 2000-01-02 3 


2000-01-03 4 2000-01-03 1 


日 期 的 范围 、 顾 率 以 及 移动 


pandas 中 的 时 间 序 列 一 般 被 认为 是 不 规则 的 ， 

也 就 是 次， 它们 没有 固定 的 频率 。 对 于 大 部 分 应 用 
程序 而 言 ， 这 是 无 所 谓 的 。 但 是 ， 它 第 音 需 要 以 东 
种 相对 固定 的 频率 进行 分 析 ， 比 如 每 日 、 每 月 、 
15 分 钟 等 《这样 目 然 会 在 时 间 序 列 中 引入 缺失 
值 ) 。 笠 运 的 是 ，pandas 有 一 整套 标准 时 间 序 列 频 
率 以 及 用 于 重 采 样 、 频 率 推 新 、 生 成 固定 频 座 日 期 
范围 的 工具 。 人 例如， 我们 可 以 将 之 前 那个 时 间 序 列 
转换 为 一 个 具有 固定 频率 〈 每 日 ) 的 时 间 序 列 ， 只 
需 调 用 resample 即 可 : 


In [380]: ts 























In [381]: ts.resample('D') 


Out[380]: 


Out[381]: 


2011-01-02 0.690002 2011-01-02 0.690002 

2011-01-05 1.001543 2011-01-03 NaN 

2011-01-07 -0.503087 2011-01-04 NaN 

2011-01-08 -0.622274 2011-01-05 1.001543 

2011-01-10 -0.921169 2011-01-06 NaN 

2011-01-12 -0.726213 2011-01-07 -0.503087 
2011-01-08 -0.622274 
2011-01-09 NaN 
2011-01-10 0.921169 
2011-01-11 NaN 
2011-01-12 -0.726213 
Freq: D 


频率 的 转换 《或 重 采 样 ) 是 一 个 比较 大 的 主 
题 ， 舟 后 将 专门 用 一 节 来 进行 讨论 。 这 里 我 将 告诉 
你 如 何 使 用 基本 的 频率 。 





生成 日 期 范围 


虽然 我 之 前 用 的 时 候 没 有 明说 ， 但 你 可 能 已 经 
表 全 Jjpandas.date_range 可 用 于 生成 指定 长 度 的 


DatetimeIndex: 


In [382]: index = pd.date_range( '4/1/2012 ' ， '6/1/2012') 


In [383]: index 


Out[383]: 
<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-04-01 00:00:00, ..., 2012-06-01 00:00:00] 


Length: 62, Freq: D, Timezone: None 


默认 情况 下 ，date_range 会 产生 按 天 计算 的 时 
间 点 。 如 果 只 传 入 起 始 或 结束 日 期 ， 那 束 还 得 传 入 
-个 表示 一 段 时 间 的 数字 : 





In [384]: pd.date_range(start='4/1/2012', periods=20) 


Out[384]: 
<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-04-01 00:00:00, ..., 2012-04-20 00:00:00] 


Length: 20, Freq: D, Timezone: None 


In [385]: pd.date_range(end='6/1/2012', periods=20) 


Out[385]: 
<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-05-13 00:00:00, .,..., 2012-06-01 00:00:00] 


Length: 20, Freq: D, Timezone: None 


起 始 和 结束 日 期 定义 了 日 期 索引 的 严格 边界 。 
例如 ， 如 果 你 想 要 生成 一 个 由 每 月 最 后 一 个 工作 日 
组 成 的 日 期 款 引 ， 可 以 传 入 "BM" 频 率 〈 表 示 
business end of month) ， 这 样 束 只 会 包含 时 间 间 隔 


内 或 刚好 在 边界 上 的 ) 符合 频率 要 求 的 日 期 : 


In [386]: pd.date range('1/1/2000', '12/1/2000', freq='BM"') 
Out[386]: 

<class 'pandas.tseries.index.DatetimeIndex'> 

[2000-01-31 00:00:00, ..., 2000-11-30 00:00:00] 

Length: 11, Freq: BM, Timezone: None 


date_range 缺 认 会 保 外 如 起 始 和 绪 束 时 间 惟 的 时 
则 信息 心 \ 《如 果 有 的 话 ) : 


In [387]: pd.date_range('5/2/2012 12:56:31', periods=5) 


Out[387]: 
<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-05-02 12:56:31, ..., 2012-05-06 12:56:31] 


Length: 5, Freq: D, Timezone: None 


虽然 起 始 和 经 吉 束 日 期 带 有 时间 信息 ， 但 
你 名 一 组 被 规范 化 “normalize) 到 午夜 的 时 
rr ee 
In [388]: pd.date range('5/2/2012 12:56:31', periods=5, normal 
Out[388]: 
<class 'pandas.tseries.index.DatetimeIndex'> 


[2012-05-02 00:00:00, .,..., 2012-05-06 00:00:00] 
Length: 5, Freq: D, Timezone: None 


频率 和 日 期 仿 移 量 


pandas 中 的 频率 是 由 一 个 基础 频率 (base 
frequency) 和 一 个 乘 数组 成 的 。 基 础 频率 通 第 以 一 
个 字符 串 别 名 表示 ， 比 如 "M" 表 示 每 月 ，"H" 表 示 每 


小 时 。 对 于 每 个 基础 频率 ， 都 有 一 个 被 称 为 日 期 偏 
移 量 (date offset〉 的 对 象 与 之 对 应 。 例 如 ， 按 小 时 
计算 的 频率 可 以 用 Hour 类 表示 : 


In [389]: from pandas.tseries.offsets import Hour, Minute 





In [390]: hour = Hour() 


In [391]: hour 
Out[391]: <1 Hour> 


传 入 一 个 整数 即 可 定义 偏 移 量 的 倍数 : 


In [392]: four_hours = Hour(4) 





In [393]: four_hours 
Out[393]: <4 Hours> 


一 般 来 说 ， 无 需 显 式 创建 这 样 的 对 象 ， 只 需 使 
用 请 如 "H" 或 "4H" 这 样 的 字符 串 别名 即 可 。 在 基础 
频率 前 面 放 上 一 个 整数 即 可 创建 倍数 : 
In [394]: pd.date_range('1/1/2000', '1/3/2000 23:59', freq="4h 
Out[3941]: 
<class 'pandas.tseries.index.DatetimeIndex'> 


[2000-01-01 00:00:00, ..., 2000-01-03 20:00:00] 
Length: 18, Freq: 4H, Timezone: None 


大 部 分 偶 移 量 对 象 都 可 通过 加 法 进行 连接 : 


In [395]: Hour(2) + Minute(30) 
Out[395]: <150 Minutes> 


同 理 ， 你 也 可 以 传 入 频率 字符 串 





《如 "2h30min") ， 这 种 字符 串 可 以 被 高 效 地 解析 
为 等 效 的 表达 式 : 
In [396]: pd.date_range('1/1/2000', periods=10, freq="'1h30min' 
Out[396]: 
<class 'pandas.tseries.index.DatetimeIndex'> 


[2000-01-01 00:00:00, .,..., 2000-01-01 13:30:00] 
Length: 10, Freq: 90T, Timezone: None 


有 些 频 率 所 摘 述 的 时 间 点 并 不 是 均匀 分 隔 的 。 
例如 ，"M" (日 历 月 末 ) 和 "BM" (每 月 最 后 一 个 工 
作 日 ) 就 取决 于 每 月 的 天 数 ， 对 于 后 者 ， 还 要 考虑 
月 末 是 不 是 周末 。 由 于 没有 更 好 的 术语 ， 我 将 这 些 
称 为 销 点 偏 移 量 (anchored offset) 。 


” 表 10-4 列 出 了 pandas 中 的 频率 代码 和 日 期 仿 移 


类 。 
注意 ， 用 户 可 以 根据 实际 需求 自 定义 一 些 频率 


类 以 便 提供 pandas 所 没有 的 日 期 逻辑 ， 但 具体 的 细 
世 超 出 了 本 书 的 范围 。 
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表 10-4: 时 间 序 列 的 基础 频率 
别名 


BMS 
W-MON、W-TUE… 


WOM-1MON、WOM-2MON… 


QJAN: Q-FEB” 


BQ-JAN、BQ-FEB… 


偏 移 量 类 型 
Day 

BusinessDay 

Hour 

Minute 

Second 

Milli 

Micro 

MonthEnd 
BusinessMonthEnd 


MonthBegin 


BusinessMonthBegin 


Week 


WeekOfMonth 


QuarterEnd 


BusinessQuarterEnd 


说 明 

每 日 历 日 

每 工作 日 

每 小 时 

每 分 

每 秒 

每 毫秒 ( 即 每 千 分 之 一 秒 ) 
每 微 秒 ( 即 每 百 万 分 之 一 秒 ) 
每 月 最 后 一 个 日 历 日 

每 月 最 后 一 个 工作 日 

每 月 第 一 个 日 历 日 


每 月 第 一 个 工作 日 

从 指定 的 星期 几 (MON、TUE、 
WED、THU、FRI、SAT、SUN) 开始 
算 起 ， 每 周 

产生 每 月 第 一 、 第 二 、 第 三 或 第 四 
周 的 星期 几 。 例 如 ，WOM-3FRI 表 
示 每 月 第 3 个 星期 五 

对 于 以 指定 月 份 (JAN、FEB、 
MAR、 APR、 MAY、JUN、JUL、 
AUG、SEP、OCT、NOV、DEC) 结 

的 年 度 ， 每 季度 最 后 一 月 的 最 后 一 
个 日 历 日 

对 于 以 指定 月 份 结束 的 年 度 ， 每 季 
度 最 后 一 月 的 最 后 一 个 工作 日 





表 10-4: 时 间 序 列 的 基础 频率 ( 续 ) 
别名 
QS-JAN、QS-FEB… 


偏 移 量 类 型 


QuarterBegin 


说 明 

对 于 以 指定 月 份 结束 的 年 度 ， 每 季 
度 最 后 一 月 的 第 一 个 日 历 日 
BusinessQuarterBegin 对 于 以 指定 月 份 结束 的 年 度 ， 
度 最 后 一 月 的 第 一 个 工作 日 


每 年 指定 月 份 (JAN、FEB、MAR、 
APR、MAY、JUN、JUL、AUG、SEP、 
OCT、NOV、DEC) 的 最 后 一 个 日 历 
日 


每 年 指定 月 份 的 最 后 一 个 工作 日 
每 年 指定 月 份 的 第 一 个 日 历 日 
每 年 指定 月 份 的 第 一 个 工作 日 


BQS-JAN、BQS-FEB… 每 季 


A-JAN、A-FEB… YearEnd 


BA-JAN、BA-FEB…: BusinessYearEnd 
A9-JAN、AS-FEB…: 


BAS-JAN、 BAS-FEB*…: 


YearBegin 


BusinessYearBegin 





WOM 日 期 


WOM (Week Of Month) 是 一 种 非常 实用 的 频 
率 类 ， 它 以 WOM 开 头 。 它 使 你 能 获得 诸如 “每 月 第 
3 个 星期 五 ”之 类 的 日 期 : 


In [397]: rng = pd.date_range('1/1/2012', '9/1/2012', freq="'WC 


In [398]: list(rng) 
Out[398]: 
[<Timestamp: 


2012-01-20 :O00>, 


<Timestamp: 
<Timestamp: 
<Timestamp: 
<Timestamp: 
<Timestamp: 
<Timestamp: 
<Timestamp : 


2012-02-17 
2012-03-16 
2012-04-20 
2012-05-18 
2012-06-15 
2012-07-20 
2012-08-17 


:O00>, 
:O00>, 
:O00>, 
:O00>, 
:O00>, 
:O00>, 
:00>] 


美国 的 股票 期 权 交 易 人 会 意识 到 这 些 日 子 就 是 
标准 的 月 度 到 期 日 。 


移动 (超前 和 沛 后 ) 数 据 


移动 〈shifting) 指 的 是 沿 看 时 间 轴 将 数据 前 移 
或 后 移 。Series 和 DataFrame 都 有 一 个 Shift 方 法 用 于 
执行 单纯 的 前 移 或 后 移 操 作 ， 保 持 索 引 不 变 : 


In [999]: ts = Series(np.random.randn(4), 
index=pd.date_range('1/1/2000', periods= 





In [460] : ts In [401]: ts. shift(2) ” In [4¢€ 
Out[400]: Out[401]: Out [46 
2000-01-31 0.575283 2000-01-31 NaN 2000-C 
2000-02-29 0.304205 2000-02-29 NaN 2000-C 
2000-03-31 1.814582 2000-03-31 0.575283 2000-C 
2000-04-30 1.634858 2000-04-30 0.304205 2000-C 
Freq: M Freq: M Fredq: 


shift 通 常用 于 计算 一 个 时 间 序 列 或 多 个 时 间 序 
列 〈 如 DataFrame 的 列 ) 中 的 百分比 变化 。 可 以 这 
样 表达 : 


ts / ts.shift(1) - 1 


由 于 单纯 的 移 位 操作 不 会 修改 么 引 ， 所 以 部 分 
数据 会 被 丢弃 。 因 此 ， 如 果 频 率 已 知 ， 则 可 以 将 其 
传 给 shift 以 便 实现 对 时 间 惟 进行 位 移 而 不 是 对 数据 
进行 简单 位 移 : 








In [403]: ts.shift(2, freq="'M') 


Out[403]: 

2000-03-31 0.575283 
2000-04-30 0.304205 
2000-05-31 1.814582 
2000-06-30 1.634858 
Freq: M 


这 里 还 可 以 使 用 其 他 频率 ， 于 是 你 束 能 非常 灵 
活 地 对 数据 进行 超前 和 沛 后 处 理 了 : 


In [404]1: ts.shift(3, freq="'D'") In [405]: ts.shift(1, fre 
Out[404]: Out[405]: 

2000-02-03 0.575283 2000-02-03 0.5752832 
2000-03-03 0.304205 2000-03-03 0 .304205 
2000-04-03 1.814582 2000-04-03 1.814582 
2000-05-03 1.634858 2000-05-03 1.634858 


In [406]: ts.shift(1, freq="'90T') 
Out[406]: 

2000-01-31 01:30:00 0.575283 
2000-02-29 01:30:00 0.304205 
2000-03-31 01:30:00 1.814582 
2000-04-30 01:30:00 1.634858 


通过 仿 移 量 对 日 期 进行 位 移 


pandas 的 日 期 偏 移 量 还 可 以 用 在 datetime 或 
Timestamp 对 象 上 : 


In [407]: from pandas.tseries.offsets import Day，MonthEnd 
In [408]: now = datetime(2011, 11, 17) 


In [409]: now + 3 * Day() 
Out[409]: datetime.datetime(2011, 11, 20, 0, 0) 








如 果 加 的 是 销 点 偏 移 量 〈( 比 如 MonthEnd) ， 
第 一 次 增 量 会 将 原 日 期 同 前 滚动 到 符合 频率 规则 的 
下 下 日 期 许 汪 5， 
In [410]: now + MonthEnd() 


Out[410]: datetime.datetime(2011，11，30，0，0) 


In [411]: now + MonthEnd(2) 
Out[411]: datetime.datetime(2011, 12, 31, 0, 0) 


通过 锚 点 偏 移 量 的 rollforward 和 rollback 方 法 ， 
可 显 式 地 将 日 期 间 前 或 同 后 “滚动 ”: 


In [412]: offset = MonthEnd () 





In [413]: offset.rollforward(now) 
Out[413]: datetime.datetime(2011, 11, 30, 0, 0) 


In [414]: offset.rollback(now) 
Out[414]: datetime.datetime(2011，10，31，0，0) 


日 期 偏 移 量 还 有 一 个 巧妙 的 用 法 ， 即 结合 
groupby 使 用 这 两 个 “滚动 ”方法 : 





In [415]: ts = Series(np.random.randn(20), 
i index=pd.date_range('1/15/2000', periods 


In [416]: ts.groupby(offset.rollforward).mean() 
Out[416]: 

2000-01-31 -0.448874 

2000-02-29 -0.683663 

2000-03-31 0.251920 


当然 ， 更 简单 、 更 快速 地 实现 该 功能 的 办 法 是 
使 用 resample《〈 稍 后 将 对 此 进行 详细 介绍 ) : 





In [417]: ts.resample('M'，how='mean ') 
Out[417]: 

2000-01-31 -0.448874 

2000-02-29 -0.683663 

2000-03-31 0.251920 

Freq: M 


译注 5: 拿 本 例 来 说 ， 就 是 第 一 次 位 移 的 量 可 能 没 
有 一 个 月 那么 长 ， 就 在 当月 。 


时 区 处 理 


时 间 序 列 处 理工 作 中 最 让 人 不 丈 的 就 是 对 时 区 
的 处 理 。 尤 其 是 夏令 时 (DST) 转变 ， 这 是 一 种 最 
向 见 的 贱 烦 事 。 束 这 一 点 来 说 ， 许 多 人 都 选择 以 协 
调 世界 时 〈UTC， 它 是 格林 尼 治 标准 时 间 
(Greenwich Mean Time) 的 接 人 蔡 者 ， 目 前 已 经 是 
际 标准 了 ) 来 处 理 时 间 序 列 。 时 区 是 以 UTC 偏 移 量 
的 形式 表示 的 。 例 如 ， 夏 令 时 期 间 ， 纽 约 比 UTC 慢 
4 小 时 ， 而 在 全 年 其 他 时 间 则 比 UTC 慢 5 小 时 。 


在 Python 中 ， 时 区 信息 来 目 第 三 方 库 pytz， 它 
使 Python 可 以 使 用 Olson 数 据 库 ”“ 6 (汇编 了 世界 时 
区 信息 ) 。 这 对 历史 数据 非常 重要 ， 这 是 因为 由 于 
各 地 政府 的 各 种 突 发 奇想 ， 夏 令 时 转变 日 期 〈 甚 至 
UTC 偏 移 量 ) 已 经 发 生 过 多 次 改变 了 。 就 拿 美 国 来 
说 ，DST 转 变 时 间 自 1900 年 以 来 就 改变 过 多 次 ! 


有 关 pytz 库 的 更 多 信息 ， 请 查阅 其 文档 。 束 本 
书 而 言 ， 由 于 pandas 包 装 了 pytz 的 功能 ， 因此 你 可 
以 不 用 记忆 其 API， 只 要 记得 时 区 的 名 称 即 可 。 时 
区 名 可 以 在 文档 中 找到 ， 也 可 以 通过 交互 的 方式 得 
看 : 


In [418]: import pytz 

















In [419]: pytz.common_timezones[-5:] 
Out[419]: ['US/Eastern', 'US/Hawaii', 'US/Mountain', 'US/Pacif 


要 从 pytz 中 获取 时 区 对 象 ， 使 用 pytz.timezone 
BN 9J: 


In [420]: tz = pytz.timezone('US/Eastern') 


In [421]: tz 
Out[421]: <DstTzInfo 'US/Eastern' EST-1 day, 19:00:00 STD> 


pandas 中 的 方法 既 可 以 接受 时 区 名 也 可 以 接受 
这 种 对 象 。 我 建议 只 用 时 区 名 。 


本 地 化 和 转换 


默认 情况 下 ，pandas 中 的 时 间 序 列 是 单纯 的 
(naive) 时 区 。 看 看 下 和 面 这 个 时 间 序 列 : 


rng = pd.date_range('3/9/2012 9:30', periods=6, freq="'D') 
ts = Series(np.random.randn(len(rng)), index=rng) 


其 索引 的 tz 字 段 为 None: 


In [423]: print(ts.index.tz) 
None 


在 生成 日 期 范围 的 时 候 还 可 以 加 上 一 个 时 区 
集 : 





In [424]: pd.date_range('3/9/2012 9:30', periods=10, freq="'D", 


Out[424] : 

<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-03-09 09:30:00, ..., 2012-03-18 09:30:00] 
Length: 10, Freq: D, Timezone: UTC 


从 单纯 到 本 地 化 的 转换 是 通过 tz_localize 方 法 
处 理 的 : 


In [425]: ts_utc = ts.tz_ localize('UTC') 


In [426]: ts_utc 
Out[426]: 


2012-03-09 09:;30:00+00:00 0.414615 
2012-03-10 09:30:00+00:00 0.427185 
2012-03-11 09:30:00+00:00 1.172557 
2012-03-12 09:30:00+00:00 -0.351572 
2012-03-13 09:30:00+00:00 1.454593 
2012-03-14 09:30:00+00:00 2.043319 
Freq: D 

In [427]: ts_utc.index 

Out[427] : 

<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-03-09 09:30:00, ..., 2012-03-14 09:30:00] 


Length: 6, Freq: D, Timezone: UTC 


一 旦 时 间 序 列 被 本 地 化 到 某 个 特定 时 区 ， 就 可 
以 用 tz_convert 将 其 转换 到 别 的 时 区 了 : 


In [428]: ts_utc.tz_convert('US/Eastern') 
Out[428]: 


2012-03-09 04:30:00-05:00 0.414615 
2012-03-10 04:30:00-05:00 0.427185 
2012-03-11 05:30:00-04:00 1.172557 
2012-03-12 05:30:00-04:00 -0.351572 
2012-03-13 05:30:00-04:00 1.454593 
2012-03-14 05:30:00-04:00 2.043319 


Freq: D 


对 于 上 面 这 种 时 间 序 列 ( 它 跨越 了 美国 东部 时 
区 的 夏令 时 转变 期 ) ， 我 们 可 以 将 其 本 地 化 到 
EST， 然 后 转换 为 UTC 或 柏林 时 间 : 


In [429]: ts_eastern = ts.tz localize('US/Eastern') 





In [430]: ts_eastern.tz_convert('UTC') 
Out[430]: 


2012-03-09 14:30:00+00:00 0.414615 
2012-03-10 14:30:00+00:00 0.427185 
2012-03-11 13:30:00+00:00 1.172557 
2012-03-12 13:30:00+00:00 -0.351572 
2012-03-13 13:30:00+00:00 1.454593 
2012-03-14 13:30:00+00:00 2.043319 


Freq: D 


In [431]: ts_eastern.tz_convert('Europe/Berlin') 
Out[431] : 


2012-03-09 15:30:00+01:00 0.414615 
2012-03-10 15:30:00+01:00 0.427185 
2012-03-11 14:30:00+01:00 1.172557 
2012-03-12 14:30:00+01:00 -0.351572 
2012-03-13 14:30:00+01:00 1.454593 
2012-03-14 14:30:00+01:00 2.043319 


Freq: D 


tz_localize 和 tz_convert 也 是 DatetimeIndex 的 实 


例 方 法 : 


In [432]: ts.index.tz_ localize('Asia/Shanghai') 
Out[432]: 

<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-03-09 09:30:00, ,.., 2012-03-14 09:30:00] 
Length: 6, Freq: D, Timezone: Asia/Shanghai 


警告 对 单纯 时 间 戳 的 本 地 化 操作 还 会 检查 夏 
令 时 转变 期 附近 容易 混淆 或 不 存在 的 时 间 。 


操作 时 区 意识 型 Timestamp 对 象 


跟 时 间 序 列 和 日 期 范围 差不多 ，Timestamp 对 
象 也 能 被 从 单纯 型 (naive) 本 地 化 为 时 区 意识 型 
(time zone-aware) ， 并 从 一 个 时 区 转换 到 另 一 个 
时 区 : 


In [433]: stamp = pd.Timestamp('2011-03-12 04:00  ) 
In [434]: stamp_utc = stamp.tz_localize('utc') 


In [435]: stamp_utc.tz convert('US/Eastern') 
Out[435]: <Timestamp: 2011-03-11 23:00:00-0500 EST, tz=US/East 


在 创建 Timestamp 时 ， 还 可 以 传 入 一 个 时 区 信 


In [436]: stamp_moscow = pd.Timestamp('2011-03-12 04:00', tz=" 


In [437]: stamp_moscow 
Out[437]: <Timestamp: 2011-03-12 04:00:00+0300 MSK, tz=Europe/ 


时 区 意识 型 Timestamp 对 象 在 内 部 保存 了 一 个 
UTC 时 间 戳 值 〈 自 UNIX 纪 元 (1970 年 1 月 1 日 ) 算 
起 的 纳 秒 数 ) 。 这 个 UTC 值 在 时 区 转换 过 程 中 是 不 
会 发 生变 化 的 : 


In [438]: stamp_utc.value 
Out[438]: 1299902400000000000 


In [439]: stamp_utc.tz convert('US/Eastern').value 
Out[439]: 1299902400000000000 





当 使 用 pandas 的 DateOffset 对 象 执行 时 间 算 术 运 
算 时 ， 运 算 过 程 会 目 动 关 注 是 否 存在 夏令 时 转变 
期 : 


# 夏令 时 转变 前 30 分 
In [440]: from pandas.tseries.offsets import Hour 


In [441]: stamp = pd.Timestamp('2012-03-12 01:30', tz='US/East 


In [442]: stamp 
Out[442]: <Timestamp: 2012-03-12 01:30:00-0400 EDT, tz=US/East 


In [443]: stamp + Hour() 
Out[443]: <Timestamp: 2012-03-12 02:30:00-0400 EDT, tz=US/East 


# 夏令 时 转变 前 90 分 钟 
In [444]: stamp = pd.Timestamp('2012-11-04 00:30', tz='US/East 


In [445]: stamp 
Out[445]: <Timestamp: 2012-11-04 00:30:00-0400 EDT, tz=US/East 


In [446]: stamp + 2 * Hour() 
Out[446]: <Timestamp: 2012-11-04 01:30:00-0500 EST, tz=US/East 


不 同时 区 之 间 的 运算 


如 果 两 个 时 间 序 列 的 时 区 不 同 ， 在 将 它们 合并 
到 一 起 时 ， 最 终结 果 束 会 是 UTC。 由 于 时 间 惟 其 实 
是 以 UTC 存储 的 ， 所 以 这 是 一 个 很 简单 的 运算 ， 并 
不 需要 发 生 任何 转换 : 


In [447]: rng = pd,date_range('3/7/2012 9:30', periods=10, fre 





In [448]: ts = Series(np.random.randn(len(rng)), index=rng) 


In [449]: ts 


Out[449]: 
2012-03-07 
2012-03-08 
2012-03-09 
2012-03-12 
2012-03-13 
2012-03-14 
2012-03-15 
2012-03-16 
2012-03-19 
2012-03-20 
Freq: B 


09 : 
09 : 
09 : 
09 : 
09 : 
09 : 
09 : 
09 : 
09 : 
09 : 


In [450]: tsi 


In [451]: ts2 


30 : 
30 : 
30 : 
30 : 
30 : 
30 : 
30 : 
30 : 
30 : 
30 : 


In [452]: result 


00 
00 
00 
00 
00 
00 
00 
00 
00 
00 


-1.749309 
-0.387235 
-0.208074 
-1.221957 
-0.067460 

0.229005 
-0.576234 

0.816895 
-0.772192 
-1.333576 


ts[:7].tz_localize('Europe/London') 


ts1i[2:].tz_convert('Europe/Moscow') 


tsi + 


In [453]: result.index 


Out[453]: 


ts2 


<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-03-07 09:30:00, 


Length: 7, 


Olson 命 名 。 


.，2012-03-15 09:30:00] 


Freq: B, Timezone: UTC 


译注 6， 也 叫 时 区 信息 


数据 库 ， 以 创始 人 David 


时 期 及 其 算术 运算 


时 期 (period)〉 表示 的 是 时 间 区 间 ， 比 如 数 
日 、 数 月 、 数 季 、 数 年 等。Period 类 所 表示 的 就 古 
这 种 数据 类 型 ， 其 构造 函数 需要 用 到 一 个 字符 串 或 
整数 ， 以 及 表 10-4 中 的 频率 : 


In [454]: p = pd.Period(2007, freq='A-DEC') 





In [455]: p 
Out[455]: Period('2007', 'A-DEC') 


这 个 Period 对 象 表 示 的 是 从 2007 年 1 月 1 日 到 
2007 年 12 月 31 日 之 间 的 整 段 时 间 。 只 需 对 Period 对 
象 加 上 或 减 去 一 个 整数 即 可 达到 根据 其 频率 进行 位 
移 的 效果 : 








In [456]: p + 5 In [457]: p - 2 
Out[456]: Period('2012', 'A-DEC') Out[457]: Period('2005', ' 


如 果 两 个 Period 对 象 拥 有 相同 的 频率 ， 则 它们 
的 差 就 是 它们 之 间 的 单位 数量 : 


In [458]: pd.Period('2014', freq='A-DEC') - pp 
Out[458]: 7 


period_range 也 数 可 用 于 创建 规则 的 时 期 沁 
: 











In [459]: rng = pd.period range('1/1/2000', '6/30/2000', freq= 


In [460]: rng 


Out[460]: 

<class 'pandas.tseries.period.PeriodIndex '> 
freq: M 

[2000-01, ..., 2000-06] 

length: 6 


PeriodIndex 类 保存 了 一 组 Period， 它 可 以 在 任 
何 pandas 数 据 结构 中 被 用 作 轴 索引 : 


In [461]: Series(np.random.randn(6), index=rng) 
Out[461]: 

2000-01 -0.309119 

2000-02 0.028558 

2000-03 1.129605 

2000-04 -0.374173 

2000-05 -0.011401 

2000-06 0.272924 

Freq: M 


PeriodIndex 类 的 构造 函数 还 允许 直接 使 用 一 组 
字符 串 : 





In [462]: values = ['2001Q3', '2002Q2', '2003Q1'] 
In [463]: index = pd.PeriodIindex(values, freq='Q-DEC') 


In [464]: index 


Out[464]: 

<class 'pandas.tseries.period.PeriodIndex '> 
freq: Q-DEC 

[2001Q3,..., 2003Q1] 

length: 3 


时 期 的 频率 转换 


Period 和 PeriodIndex 对 象 都 可 以 通过 其 asfreq 方 
法 被 转换 成 别 的 频 雍 。 假 设 我 们 有 一 个 年 度 时 期 ， 
硕 望 将 其 转换 为 当年 年 初 或 年 末 的 一 个 月 度 时 期 。 
该 任务 非常 简单 : 


In [465]: p = pd.Period('2007', freq='A-DEC') 








In [466]: p.asfreq('M', how='start') In [467]: p.asfr 
Out[466]: Period('2007-01', 'M') Out[467]: Period 


你 可 以 将 Period('2007''A-DEC'") 看 做 一 个 被 划 
分 为 多 个 月 度 时 期 的 时 间 段 中 的 游标 。 图 10-1 对 此 
进行 了 说 明 。 对 于 一 个 不 以 12 月 结束 的 财政 年 度 ， 
月 度 子 时 期 的 归属 情况 就 不 一 样 了 : 

In [468]: p = pd.Period('2007', freq='A-JUN') 
In [469]: p.asfreq('M', 'start') In [470]: p.asfreq('M', 
Out[469]: Period('2007-06', 'M') Out[470]: Period('2007- 
在 将 高 频率 转换 为 低频 率 时 ， 超 时 期 
(superperiod) 是 由 子 时 期 (subperiod) 所 属 的 位 


置 决定 的 。 例 如 ， 在 A-JUN 频 率 中 ， 月 份 “2007 年 8 
月 ”实际 上 是 属于 周期 <*2008 年 ”的 : 


In [471]: p = pd.Period('2007-08', 'M') 








In [472]: p.asfreq('A-JUN') 
Out[472]: Period('2008', 'A-JUN') 


PeriodIndex 或 TimeSeries 的 频率 转换 方式 也 是 


如 此 : 


In [473] : 

In [474]: ts 
In [475]: ts 
Out[475]: 
2006 -0. 
2007 0. 
2008 -0. 
2009 0. 
Freq: A-DEC 
In [476]: ts. 
Out[476]: 
2006-01 -0. 
2007-01 0. 
2008-01 -0. 
2009-01 0. 
Freq: M 


rng = pd.period_range('2006', 


'2009', freq='A-DEC') 


= Series(np.random.randn(len(rng)), index=rng) 


601544 
574265 
194115 
202225 


asfreq('M', 


601544 
574265 
194115 
202225 


how="'start') 


In [477]: 
Out[477]: 
2006-12-29 
2007-12-31 
2008-12-31 
2009-12-31 
Freq: B 


ts.asfreq('eE 


-©O.6C 
0.57 
-0 ,19 
0.2C 








Period("2011-06, 'M') 


Period(2011, A-DEC') 











多 季度 型 数据 都 会 涉 


图 10-1:，Period 频 率 转 换 示 例 
按 季 上 度 计算 的 时 期 频率 


季度 型 数据 在 会 计 、 金 融 等 领域 中 很 常见 。 许 


“ 财 年 末 ” 的 概念 ， 通 第 是 一 





年 12 个 月 中 某 月 的 最 后 一 个 日 历 日 或 工作 日 。 就 这 
一 点 来 襄 ， 时 期 "2012Q4" 根 据 财 年 末 的 不 同 会 有 不 
同 的 含义 。pandas 支 持 12 种 可 能 的 季度 型 频率 ， 即 
Q-JAN 到 Q-DEC: 














In [478]: p = pd.Period('2012Q4', fredq='Q-JAN') 


In [479]: p 
Out[479]: Period('2012Q4', 'Q-JAN') 


在 以 1 月 结束 的 财 年 中 ，2012Q4 是 从 11 月 到 1 月 
(将 其 转换 为 日 型 频率 就 明白 了 ) 。 图 10-2 对 此 进 
行 了 说 明 : 
In [480]: p.asfreq('D', 'start’) In [481]: p.asfreq('D', 
Out[480]: Period('2011-11-01', 'D') Out[481]: Period('2012- 


因此 ，Period 之 间 的 算术 运算 会 非常 简单 。 例 
如 ， 要 获取 该 季度 倒数 第 二 个 工作 日 下 午 4 点 的 时 
间 惟 ， 你 可 以 这 样 : 


In [482]: p4pm = (p.asfreq('B', 'e') - 1).asfreq('T', 'Ss') + 1 





In [483]: p4pm 
Out[483]: Period('2012-01-30 16:00', 'T') 


In [484]: p4pm.to_ timestamp() 
Out[484]: <Timestamp: 2012-01-30 16:00:00> 








Year 2012 
M 


Q-DEC 
Q-SEP 201202 201203 201204 201301 


Q-FEB 








图 10-2: 不 同 季 上 度 型 频率 之 间 的 转换 


period_range 还 可 用 于 生成 季度 型 范围 。 季 虚 





型 范围 的 算术 运算 也 跟 上 面 是 一 样 的 : 


In [485]: rng = pd.period range('2011Q3', '2012Q4', freq='Q-JA 
In [486]: ts = Series(np.arange(len(rng)), index=rng) 


In [487]: ts 
Out[487]: 

2011Q3 0 
2011Q4 1 
2012Q1 2 
2012Q2 3 
2012Q3 4 
2012Q4 5 
Freq: Q-JAN 


In [488]: new_rng = (rng.asfreq('B', 'e') - 1).asfreq('T', 'Ss' 
In [489]: ts.index = new_rng.to timestamp() 


In [490]: ts 
Out[490]: 
2010-10-28 16:00:00 
2011-01-28 16:00:00 
2011-04-28 16:00:00 
2011-07-28 16:00:00 
2011-10-28 16:00:00 
2012-01-30 16:00:00 


ORPOODNDPO 


将 Timestamp 转 换 为 Period (及 其 反 向 过 
程 ) 


通过 使 用 to_period 方 法 ， 可 以 将 由 时 间 惟 索引 
的 Series 和 DataFrame 对 象 转换 为 以 时 期 索引 : 


In [491]: rng = pd.date_range('1/1/2000', periods=3, freq="'M') 
In [492]: ts = Series(randn(3), index=rng) 
In [493]: pts = ts.to_ period() 


In [494]: ts 

Out[494] : 

2000-01-31 -0.505124 
2000-02-29 2.954439 
2000-03-31 -2.630247 
Freq: M 

In [495]: pts 
Out[495]: 

2000-01 .505124 
2000-02 2.954439 
2000-03 630247 
Freq: M 


由 于 时 期 指 的 契 非 里 县 时 间 区 间 ， 因此 对 于 给 
定 的 频率 ， 一 个 时 间 惟 只 能 属于 一 个 时 期 。 新 
periodIndex 的 频率 默认 是 从 时 间 蕉 推断 而 来 的 你 
也 可 以 指定 任何 别 的 频率 。 结 果 中 允许 存在 重复 时 
期 : 


In [496]: rng = pd.date range('1/29/2000', periods=6, freq="'D'" 


1 
© 


1 
DD 














In [497]: ts2 = Series(randn(6), index=rng) 


In [498]: ts2 
Out[498]: 
2000-01 
2000-01 
2000-01 
2000-02 
2000-02 
2000-02 

Freq: M 


1 1 1 
©O©OPOOO 


.to_period('M') 


352453 
477808 
161594 
686833 
821965 
667406 


要 转换 为 时 间 惟 ， 使 用 to_timestamp 即 可 : 


In [499]: pts 


In [500]: pts 
Out[500]: 
2000-01 
2000-02 
2000-03 

Freq: M 


In [501]: pts. 


out [501]: 
2000-01-31 
2000-02-29 
2000-03-31 
Freq: M 


= ts.to_period() 


-0.505124 
,954439 
-2.630247 


to_timestamp(how='end ' ) 


-0.505124 
2.954439 
-2.630247 


通过 数组 创建 PeriodIndex 


问 定 频 京 的 数据 集 通 常会 将 时 间 信 息 分 开 存 放 


在 多 修 列 由 


例如 ， 在 下 面 这 个 宏观 经 济 数据 集 


中 ， 年 度 和 邓 度 就 分 列 和 存放 在 不 同 的 列 中 : 


In [502]: data = pd.read csv('ch08/macrodata.csv') 


In [503]: data.year In [504]: data.quarter 


Out[503]: 


Out[504]: 


0 1959 0 工 
1 1959 1 2 
入 1959 2 3 
3 1959 3 4 
199 2008 199 4 
200 2009 200 1 
201 2009 201 2 
202 2009 202 3 
Name: year, Length: 203 Name: quarter, Length: 203 


将 这 两 个 数组 以 及 一 个 频率 传 入 PeriodIndex， 
就 可 以 将 它们 合并 成 DataFrame 的 一 个 索引 : 


In [505]: index = pd.PeriodIndex(year=data.year，duarter=data， 


In [506]: index 


Out[506]: 

<class 'pandas.tseries.period.PeriodIndex '> 
freq: Q-DEC 

[1959Q1, ..., 2009Q3] 

length: 203 


In [507]: data.index = index 


In [508]: data.infl 


out [508] : 

1959Q1 0.00 
1959Q2 2.34 
1959Q3 2.74 
1959Q4 9.27 


2008Q4 -8.79 
2009Q1 0.94 
2009Q2 3.37 
2009Q3 3.56 
Freq: Q-DEC, Name: infl, Length: 203 


香 玉 样 及 频率 转换 


重 采 样 (resampling〉 指 的 是 将 时 间 序 列 从 一 
个 频率 转换 到 另 一 个 频率 的 处 理 过 程 。 将 高 频率 数 
据 聚 合 到 低频 率 称 为 降 采 样 (downsampling) ， 而 
将 低频 率 数 据 转 换 到 高 频率 则 称 为 升 采样 

Cupsampling) 。 并 不 是 所 有 的 重 采 样 都 能 被 划分 
到 这 两 个 大 类 中 。 例 如 ， 将 W-WED 每 周三 ) 转 
换 为 W-FRI 既 不 是 降 采 样 也 不 是 升 采样 。 


pandas 对 象 都 带 有 一 个 resample 方 法 ， 它 是 各 
种 频率 转换 工作 的 主力 函数 : 
In [509]: rng = pd.date range('1/1/2000', periods=100, freq='C 
In [510]: ts = Series(randn(len(rng)), index=rng) 


In [511]: ts.resample('M', how='mean') 
Out[511]: 

2000-01-31 0.170876 

2000-02-29 0.165020 

2000-03-31 0.095451 

2000-04-30 0.363566 


Freq: M 

In [512]: ts.resample('M', how='mean', kind='period') 
Out[512]: 

2000-01 0.170876 

2000-02 0.165020 

2000-03 0.095451 

2000-04 0.363566 


Freq: M 


resample 是 一 个 灵活 高 效 的 方法 ， 可 用 于 处 理 
非常 大 的 时 间 序 列 。 我 将 通过 一 系列 的 示例 说 明 其 


用 法 。 


表 10-5: resample 方 法 的 参数 


参数 


freq 

how='mean.' 
axis=0 
fill_method=None 


closed='right' 


label='right 


说 明 

表示 重 采 样 频率 的 字符 串 或 DateOffset， 例 如 'M'、'5min' 或 
Second(15) 

用 于 产生 聚合 值 的 函数 名 或 数组 函数 ， 例 如 'mean'、'ohlc'、 
np.max 等 。 默 认为 'mean'。 其 他 常用 的 值 有 : 'first'、'last'、 
median 、ohlc、max 、min' 

重 采 样 的 轴 ， 默 认为 axis=0 

升 采样 时 如 何 插值 ， 比 如 ' 人 由 或 'bfill'。 默 认 不 插值 

在 降 采 样 中 ， 各 时 间 段 的 哪 一 端 是 闭合 ( 即 包含 ) 的 ，'right' 或 
'left'。 默 认为 'right' 

在 降 采 样 中 ， 如 何 设置 聚合 值 的 标签 ，'right' 或 left”( 面 元 的 右边 
界 或 左边 界 ) 。 例 如 ，9:30 到 9:35 之 间 的 这 5 分 钟 会 被 标记 为 9:30 或 
9:35。 默 认为 'right' (本 例 中 就 是 9:35) 





表 10-5: resample 方 法 的 参数 ( 续 ) 


参数 


loffset=None 


limit=None 


kind=None 


convention=None 


说 明 

面 元 标签 的 时 间 校 正 值 ， 比 如 '-1s' / Second(-1) 用 于 将 聚合 标签 调 
早 1 黎 

在 前 向 或 后 向 填充 时 ， 人 允许 填充 的 最 大 时 期 数 

聚合 到 时 期 ('period') 或 时 间 惟 (timestamp') ， 默 认 聚 合 到 时 
间 序 列 的 索引 类 型 

当 重 采样 时 期 时 ， 将 低频 率 转 换 到 高 频率 所 采用 的 约定 ('start' 或 
'end') 。 默 认为 'end 





降 及 和 件 


将 数据 聚合 到 规整 的 低频 率 是 一 件 非 常 普通 的 
时 间 序 列 处 理 任 务 。 竺 聚合 的 数据 不 必 拥 有 固定 的 
频率 ， 期 望 的 频率 会 目 动 定义 聚合 的 面 元 边界 ， 这 
些 面 元 用 于 将 时 间 序 列 拆 分 为 多 个 片段 。 例 如 ， 要 
转换 到 月 度 频 率 ('M' 或 BM') ， 数 据 需要 被 划分 到 
多 个 单 月 时 间 段 中 。 各 时 间 段 都 是 半 开 放 的 。 一 个 
数据 点 只 能 属于 一 个 时 间 段 ， 所 有 时 间 段 的 并 集 必 
须 能 组 成 整个 时 间 帧 。 在 用 resample 对 数据 进行 降 
采样 时 ， 需 要 考虑 两 样 东西 : 


各 区 间 哪 边 是 财 合 的 。 


如何 标记 各 个 聚合 面 元 ， 用 区 间 的 开头 还 是 
末尾 。 


首先 ， 我 们 来 看 一 些 “1 分 钟 ?数据 : 


In [513]: rng = pd.date_range('1/1/2000'，periods=12，Tfreq= 'T' 





In [514]: ts = Series(np.arange(12), index=rng) 


In [515]: ts 
Out[515]: 
2000-01-01 00:00:00 
2000-01-01 00:01:00 
2000-01-01 00:02:00 
2000-01-01 00:03:00 
2000-01-01 00:04:00 
2000-01-01 00:05:00 
2000-01-01 00:06:00 
2000-01-01 00:07:00 
2000-01-01 00:08:00 
2000-01-01 00:09:00 
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2000-01-01 00:10:00 10 
2000-01-01 00:11:00 11 
Freq: T 


假设 你 想 要 通过 求 和 的 方式 将 这 些 数 据 聚 合 
到 “5 分 钟 ” 块 中 : 
In [516]: ts.resample('S5min', how="'sum') 
Out[516]: 
2000-01-01 00:00:00 0 
2000-01-01 00:05:00 15 
2000-01-01 00:10:00 40 


2000-01-01 00:15:00 11 
Freq: 5T 


传 入 的 频率 将 会 以 “5 分 钟 ” 的 增 量 定义 面 元 边 
界 。 默 认 情况 下 ， 面 元 的 右边 界 是 包含 的 ， 因 此 
00:00 到 00:05 的 区 间 中 是 包含 00:05 的 二 1。 传 入 
closed='"left 会 让 区 间 以 左边 界 闭 合 : 





In [517]: ts.resample('S5min', how='sum', closed='left') 
Out[517]: 

2000-01-01 00:05:00 10 

2000-01-01 00:10:00 35 

2000-01-01 00:15:00 21 

Freq: 5T 


如 你 所 见 ， 最 终 的 时 间 序 列 是 以 各 面 元 右边 界 
的 时 间 惟 进行 标记 的 。 传 入 label='eft 即 可 用 面 元 的 
左边 界 对 其 进行 标记 : 
In [518]: ts.resample('S5min', how='sum', closed="'left', label:= 
Out[518]: 


2000-01-01 00:00:00 10 
2000-01-01 00:05:00 35 


2000-01-01 00:10:00 21 
Freq: 5T 


图 10-3 说 明了 所 分 钟 " 数 据说 转换 为 “5 分 钟 ” 数 
据 的 处 理 过 程 。 





closed- "left’ [IT oo [907 | 905 | 904 | 905] 


closed="right' [| 900 | 901 | 902 | 903 | 904 | 905 


label=" left' label="right'" 











图 10-3: 各 种 closed、label 约 定 的 “5 分 钟 ? 重 采样 演 
示 


最 后 ， 你 可 能 希望 对 结果 索引 做 一 些 位 移 ， 比 

如 从 右边 界 减 去 一 秒 以 便 更 容易 明日 该 时 间 稚 到 讨 
表示 的 是 哪个 区 间 。 只 需 通 过 loffset 设 置 一 个 字符 
串 或 日 期 偏 移 量 即 可 实现 这 个 目的 : 

In [519]: ts.resample('S5min', how='sum', loffset='-1s') 

Out[519 ] : 

1999-12-31 23:59:59 0 

2000-01-01 00:04:59 15 

2000-01-01 00:09:59 40 


2000-01-01 00:14:59 11 
Freq: 5T 


此 外 ， 也 可 以 通过 调用 结果 对 象 的 shift 方 法 来 
实现 该 目的 ， 这 样 吏 不 需要 设置 loffset 了 。 

















OHLC 重 采样 


金融 领域 中 有 一 种 无 所 不 在 的 时 间 序 列 聚 合 方 
式 ， 即 计算 各 面 元 的 四 个 值 : 第 一 个 值 (open， 开 
盘 ) 、 最 后 一 个 值 (close， 收 盘 ) 、 最 大 值 
(Chigh， 最 高 ) 以 及 最 小 值 low， 最 低 ) 。 传 入 


how='ohlc 即 可 得 到 一 个 含有 这 四 种 


聚合 值 的 


DataFrame。 整 个 过 程 很 高 效 ， 只 需 一 次 扫描 即 可 


计算 出 结 来 : 


In [520]: ts.resample('S5min', 
Out[520]: 


open high 


2000-01-01 00:00:00 0 
2000-01-01 00:05:00 1 
2000-01-01 00:10:00 6 
2000-01-01 00:15:00 11 


通过 groupby 进 行 重 采样 


how= 'ohlc ' ) 


low 
0 


11 


close 
© 

与 

10 

11 


妨 一 种 降 采 样 的 办 法 是 使 用 pandas 的 groupby 功 
能 。 例 如 ， 你 打算 根据 月 份 或 星期 几 进行 分 组 ， 只 
需 传 入 一 个 能 够 访问 时 间 序 列 的 乏 引 上 的 这 些 字 有 段 


的 函数 即 可 : 


In [521]: rng = pd.date_range( '1/1/2000 ' ， 


periods=100, freq='C 


In [522]: ts = Series(np.arange(100), index=rng) 


In [523]: ts.groupby(lambda x: x.month).mean() 


Out[523]: 


工 15 
2 45 
3 75 
4 95 


Out[524]: 


ONPO 
ol 
© 
OOGJOOOO OI 


升 米 样 和 插值 


在 将 数据 从 低频 率 转 换 到 局 频率 时 ， 束 不 需要 
聚合 了。 我 们 来 看 一 个 种 有 一 些 周 型 数据 的 


DataFrame: 


In [525]: frame = DataFrame(np.random.randn(2, 4), 
ee index=pd.date_range('1/1/2000', pe 
columns=['Colorado', 'Texas', 'Newn 


In [526]: frame[:5] 
Out[526]: 

Colorado Texas New York Ohio 
2000-01-05 -0.609657 -0.268837 0.195592 0.85979 
2000-01-12 -0.263206 1.141350 -0.101937 -0.07666 


将 其 重 采 样 到 日 频率 ， 默 认 会 引入 缺失 值 : 


In [527]: df daily = frame.resample('D') 


In [528]: df_daily 
Out[528]: 
Colorado Texas New York Ohio 


2000-01-05 -0.609657 -0.268837 0.195592 0.85979 


2000-01-06 NaN NaN NaN NaN 
2000-01-07 NaN NaN NaN NaN 
2000-01-08 NaN NaN NaN NaN 
2000-01-09 NaN NaN NaN NaN 
2000-01-10 NaN NaN NaN NaN 
2000-01-11 NaN NaN NaN NaN 


2000-01-12 -0.263206 1.141350 -0.101937 -0.07666 


假设 你 想 要 用 前 面 的 周 型 值 填充 “ 韭 星期 三 ”。 
resampling 的 填充 和 插值 方式 跟 fillna 和 reindex 的 一 
样 : 


In [529]: frame.resample('D', fill method="'ffill") 
Out[529]: 








Colorado Texas New York Ohio 
2000-01-05 -0.609657 -0.268837 0.195592 0.85979 
2000-01-06 -0.609657 -0.268837 0.195592 0.85979 
2000-01-07 -0.609657 -0.268837 0.195592 0.85979 
2000-01-08 -0.609657 -0.268837 0.195592 0.85979 
2000-01-09 -0.609657 -0.268837 0.195592 0.85979 
2000-01-10 -0.609657 -0.268837 0.195592 0.85979 
2000-01-11 -0.609657 -0.268837 0.195592 0.85979 


2000-01-12 -0.263206 1.141350 -0.101937 -0.07666 


同样 ， 这 里 也 可 以 只 填充 指定 的 时 期 数目 的 
是 限 制 前 面 的 观测 值 的 持续 使 用 距离 ) : 


In [530]: frame.resample('D', fill method="'ffill', limit=2) 
Out[530]: 





Colorado Texas New York Ohio 
2000-01-05 -0.609657 -0.268837 0.195592 0.85979 
2000-01-06 -0.609657 -0.268837 0.195592 0.85979 
2000-01-07 -0.609657 -0.268837 0.195592 0.85979 


2000-01-08 NaN NaN NaN NaN 
2000-01-09 NaN NaN NaN NaN 
2000-01-10 NaN NaN NaN NaN 
2000-01-11 NaN NaN NaN NaN 


2000-01-12 -0.263206 1.141350 -0.101937 -0.07666 


注意 ， 新 的 日 期 索引 完全 没 必 要 跟 旧 的 相 区: 


In [531]: frame.resample( 'W-THU', fill method="'ffill') 
Out[531]: 

Colorado Texas New York Ohio 
2000-01-06 -0.609657 -0.268837 0.195592 0.85979 
2000-01-13 -0.263206 1.141350 -0.101937 -0.07666 


昨 过 时 期 进行 重 采样 


对 那些 使 用 时 期 索引 的 数据 进行 重 采 样 是 件 非 
党 简单 的 事情 : 


In [532]: frame = DataFrame(np.random.randn(24, 4), 
人 index=pd.period_range('1-2000', "1 
columns=['Colorado', 'Texas', 'Newn 











In [533]: frame[:5] 


Out[533]: 

Colorado Texas New York Ohio 
2000-01 0.120837 1.076607 0.434200 0.056432 
2000-02 -0.378890 0.047831 0.341626 1.567920 
2000-03 -0.047619 -0.821825 -0.179330 -0.166675 
2000-04 0.333219 -0.544615 -0.653635 -2.311026 
2000-05 1.612270 -0.806614 0.557884 0.580201 


In [534]: annual_ frame = frame.resample('A-DEC', how='mean') 


In [535]: annual_frame 
Out[535]: 

Colorado Texas New York Ohio 
2000 0.352070 -0.553642 0.196642 -0.094099 
2001 0.158207 0.042967 -0.360755 0.184687 


升 采 样 要 稍微 麻烦 一 些 ， 因 为 你 必须 决定 在 新 
频率 中 各 区 间 的 哪 ? 者 用 于 放置 原 光 的 肖 束 像 


asfreq 方 法 那样 。convention 参 数 默认 为 'end'"， 可 设 
置 为 'start': 








# Q-DEC: 至 上 度 集 (每 年 以 12 月 结束 ) 
In [536]: annual_ frame.resample('Q-DEC', fill method='ffill') 


Out[536]: 

Colorado Texas New York Ohio 
2000Q4 0.352070 -0.553642 0.196642 -0.094099 
2001Q1 0.352070 -0.553642 0.196642 -0.094099 
2001Q2 0.352070 -0.553642 0.196642 -0.094099 
2001Q3 0.352070 -0.553642 0.196642 -0.094099 
2001Q4 0.158207 0.042967 -0.360755 0.184687 


In [537]: annual_frame.resample('Q-DEC', fill method="'ffill', 
Out[537]: 

Colorado Texas 
2000Q1 0.352070 -0.553642 
2000Q2 0.352070 -0.553642 .196642 -0.094099 


New York Ohio 

0 0 

0 0 

2000Q3 0.352070 -0.553642 0.196642 -0.094099 
0 0 

0 0 


.196642 -0.094099 


2000Q4 0.352070 -0.553642 .196642 -0.094099 
2001Q1 0.158207 .042967 -0.360755 0.184687 


由 于 时 期 指 的 是 时 间 区 间 ， 所 以 升 采样 和 降 采 
样 的 规则 就 比较 严格 ; 


:在 降 采 样 中 ， 目 标 频 京 必须 是 源 频 京 的 子 时 
期 (subperiod)。 


在 升 采 样 中 ， 目 标 频 京 必须 是 源 频 京 的 超时 
期 (superperiod) 。 


如 果 不 满足 这 些 条 件 ， 束 会 引 友 弄 弟 。 这 主要 


影 啊 的 是 按 季 、 年 、 周 计算 的 频率 。 例 如 ， 由 Q- 
MAR 和 定义 的 时 间 区 间 只 能 升 采 样 为 A-MAR、A- 





























JUN、A-SEP、A-DEC 等 : 


In [538]: annual_frame.resample('Q-MAR', fill method='ffill') 


Out[538]: 

Colorado Texas New York Ohio 
2001Q3 0.352070 -0.553642 0.196642 -0.094099 
2001Q4 0.352070 -0.553642 0.196642 -0.094099 
2002Q1 0.352070 -0.553642 0.196642 -0.094099 
2002Q2 0.352070 -0.553642 0.196642 -0.094099 


2002Q3 0.158207 0.042967 -0.360755 0.184687 
注 1: closed='right'"、label='right 这 两 个 默认 值 可 能 
会 让 部 分 用 户 感到 奇怪 。 在 实际 工作 当中 ， 这 两 个 
选项 的 值 比较 随意 。 对 于 菏 些 目标 频率 ,， c 1 0 se 
d= e f t' 会 更 好 ， 而 对 于 其 他 的 ， 则 closed='right' 才 
更 为 合理 。 你 真正 应 该 关注 的 是 要 如 何 对 数据 分 


皮 ， 














时 间 序 列 绘图 


pandas 时 间 序 列 的 绘图 功能 在 日 期 格式 化 方面 
比 matplotlib 原 生 的 要 好 。 来 看 下 面 这 个 例子 ， 我 先 
从 YahoolFinance 下 载 了 几 只 美国 股票 的 一 些 价格 数 
据 : 


In [539]: close px all = pd.read csv('ch0O9/stock px.csv', pars 





In [540]: close px = close px_all[['AAPL', 'MSFT', 'XOM']] 
In [541]: close px = close px.resample('B', fill method="'ffill 


In [542]: close_px 

Out[542]: 

<class 'pandas.core.frame.DataFrame'> 

DatetimeIndex: 2292 entries, 2003-01-02 00:00:00 to 2011-10-14 
Freq: B 

Data columns: 

AAPL 2292 non-null values 

MSFT 2292 non-null values 

XOM 2292 non-null values 

dtypes: float64(3) 


对 其 中 任意 一 列 调用 plot 即 可 生成 一 张 简单 的 
图 表 ， 如 图 10-4 所 示 。 


In [544]: close_ px['AAPL'].plot() 
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图 10-4: AAPL 每 日 价格 


当 对 DataFrame 调 用 plot 时 ， 所 有 了 时间 序 列 都 会 
被 绘制 在 一 个 subplot 上 ， 并 有 一 个 图 例 说 明 哪 个 是 
哪个 。 这 里 我 只 绘制 了 2009 年 的 数据 ， 如 图 10-5 所 
示 ， 月 份 和 年 度 都 被 格式 化 到 了 X 轴 上 。 


In [546]: close px.ix['2009'].plot() 














图 10-5: 2009 年 的 股票 价格 











24 31 


28 07 14 28 
n Feb Mar 
2011 


Ja 











图 10-6: 苹果 公司 在 2011 年 1 月 到 3 月 间 的 每 日 股 从 





图 10-6 展 示 了 苹果 公司 在 2011 年 1 月 到 3 月 间 的 
日 股价 。 


In [548]: close_px['AAPL"'].ix['01-2011':'03-2011'] .plot() 








季度 型 频率 的 数据 会 用 季度 标记 进行 格式 化 ， 


这 种 事情 如 果 纯 手工 做 的 话 那 是 很 费 精 力 的 。 如 图 
10-7 所 示 。 








In [550]: appl q = close px['AAPL'].resample('Q-DEC', fill met 


In [551]: appl_q.ix['2009':].plot() 


pandas 时 间 序 列 在 绘图 方面 还 有 一 个 特 后: 当 
右键 点 击 二 "并 拖拉 《〈 放 大 、 缩 小 ) 时， 日 期 会 动 
态 展开 或 收缩 ， 且 绘图 窗口 中 的 时 间 区 间 会 被 重 新 
格式 化 。 当 然 ， 只 有 在 交互 模式 下 使 用 matplotlib 才 





会 有 此 效 采 。 
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图 10-7: 苹果 公司 在 2009 年 到 2011 年 间 的 每 季度 股 
价 
译注 7， 应 该 是 按 住 (hold) 而 不 是 点 击 (dlick) 。 





移动 窗口 冰 数 


在 移动 窗口 (可 以 禹 有 指数 衰减 权 数 ) 上 计算 
的 各 种 统计 函数 也 是 一 类 第 见于 时 间 序 列 的 数组 变 
换 。 我 将 它们 称 为 移动 窗口 函数 (moving window 
function) ， 其 中 还 包括 那些 窗口 不 定 长 的 函数 
(如 指数 加 权 移 动 平均 〉 。 跟 其 他 统计 函数 一 样 ， 
移动 窗口 函数 也 会 目 动 排除 缺失 值 。 


rolling_mean 是 其 中 最 简单 的 一 个 。 它 接受 一 
个 TimeSeries 或 DataFrame 以 及 一 个 window (表示 期 
数 ) : 


In [555]: close_px.AAPL.plot() 
Out[555]: <matplotlib.axes.AxesSubplot at Ox1099b3990> 





In [556]: pd.rolling_mean(close_ px.AAPL, 250).plot() 


结果 如 图 10-8 所 示 。 默 认 情 况 下 ， 诸 如 
rolling_mean 这 样 的 函数 需要 指定 数量 8 的 非 NA 
观测 值 。 可 以 修改 该 行为 以 解决 缺失 数据 的 问题 。 
其 实 ， 在 时 间 序 列 开始 处 尚 不 足 窗口 期 的 那些 数据 
就 是 个 特例 ( 见 图 10-9) : 








2004 


2005 2006 


2007 


2008 


2009 


2010 





2011 





图 10-8: 于 果 公司 股价 的 250 日 均线 


In [558]: appl_std250 pd.rolling_std(close_ px.AAPL, 250, min 


In [559]: appl_std250[5:12] 


Out[559]: 
2003-01-09 
2003-01-10 
2003-01-13 
2003-01-14 
2003-01-15 
2003-01-16 
2003-01-17 
Freq: B 


NaN 
NaN 
NaN 
NaN 
0.077496 
0.074760 
0.112368 


In [560]: appl_std250.plot() 
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图 10-9: 苹果 公司 250 日 每 日 回报 标准 差 








要 计算 扩展 窗口 平均 (expanding window 
mean) ， 你 可 以 将 扩展 窗口 看 做 一 个 特殊 的 窗口 ， 
其 长 度 与 时 间 序 列 一 样 ， 但 只 需 一 期 (或 多 期 下 入 


# 骨 过 rolLling_mean 和 定义 扩展 平 坊 


对 DataFrame 调 用 rolling_mean (以 及 与 之 类 似 
的 函数 ) 会 将 转换 应 用 到 所 有 的 列 上 《〈 见 图 10- 


10) : 


In [563]: pd.rolling_mean(close px, 60).plot(logy=True) 
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图 10-10: 各 股价 60 日 均线 〈 对 数 Y 轴 ) 
表 10-6 中 列 出 了 pandas 中 的 此 类 函数 。 


表 10-6: 移动 窗口 和 指数 加 权 函 数 

















函数 说 明 

rolling_count 返回 各 窗口 非 NA 观测 值 的 数量 

rolling_sum 移动 窗口 的 和 

rolling_mean 移动 窗口 的 平均 值 

rolling_median 移动 窗口 的 中 位 数 

rolling_var、 rolling_std 移动 窗口 的 方差 和 标准 差 。 分 母 为 n -1 
rolling_skew、 olling_kurt 移动 窗口 的 偏 度 〈 三 阶 矩 ) 和 峰 度 (四 阶 算 ) 
rolling_min、 rolling_max 移动 窗口 的 最 小 值 和 最 大 值 

rolling_quantile 移动 窗口 指定 百 分 位 数 /样本 分 位 数位 置 的 值 
rolling_corr、 rolling_cov 移动 窗口 的 相关 系数 和 协 方 差 

rolling_apply 对 移动 窗口 应 用 普通 数组 函数 

ewma 指数 加 权 移 动 平 均 

ewmvar、ewmstd 指数 加 权 移 动 方差 和 标准 差 
ewmcorr、ewmcov 指数 加 权 移 动 相关 系数 和 协 方 差 





注意 : bottleneck (由 Keith Goodman 制 作 的 
Python 库 ) 提供 了 男 一 种 对 NaN 友 好 的 移动 窗口 也 
数 集 。 值 得 一 看 ， 说 不 定 能 在 你 的 工作 中 派 上 用 
场 。 


站 数 加 权 函 数 


另 一 种 使 用 固定 大 小 窗口 及 相等 权 数 观测 值 的 
办 法 是 ， 定 义 一 个 衰减 因 了 于 (decay factor) 第 量 ， 
以 便 使 近期 的 观测 值 拥 有 更 大 的 权 数 。 用 数学 术语 
来 讲 ， 如 果 mat 古 时 间 t 的 移动 平均 结果 ，x 是 时 间 序 
列 ， 结 果 中 的 各 个 值 可 用 mat =a*mat-1+(a -1)*x-t 进 

















行 计 算 ， 其 中 a 为 豪 减 因 子 。 袁 减 因 了 于 的 定义 方式 
有 很 多 ， 比 较 流 行 的 是 使 用 时 间 间 隔 (span)， 它 
可 以 使 结果 兼容 于 窗口 大 小 等 于 时 间 间 隅 的 简单 移 
动 窗口 (simple moving window) 函数 。 


由 于 指数 加 权 统 计 会 赋予 近期 的 观测 值 更 大 的 
权 数 ， 因 此 相对 于 等 权 统计 于 10， 它 能 “适应 ”更 
快 的 变化 。 下 面 这 个 例子 对 比 了 苹果 公司 股价 的 60 
日 移动 平均 和 span=60 的 指数 加 权 移 动 平均 (如 图 
10-11 所 示 ) : 











fig, axes = plt.subplots(nrows=2, ncols=1, sharex=True, sharey 
aapl_px = close_px.AAPL['2005':'2009'] 


ma60 = pd.rolling mean(aapl_ px, 60, min_periods=50) 
ewma60 = pd.ewma(aapl px, span=60) 


aapl_px.plot(style='k-', ax=axes[0]) 
ma60.plot(style='k--', ax=axes[0]) 
aapl_px.plot(style='k-', ax=axes[1]) 
ewma60.plot(style='k--', ax=axes[1]) 
axes[0].set_title('Simple MA') 
axes[1].set_title('Exponentially-weighted MA') 
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图 10-11: 简单 移动 平均 与 指数 加 权 移 动 平 均 
二 元 移动 窗口 函数 


有 些 统计 运算 〈 如 相关 系数 和 协 方 甜 ) 需要 在 
两 个 时 间 序 列 上 上 执行。 例如， 金融 分 析 师 第 第 对 茶 
只 股票 对 某 个 参考 指数 (如 标准 普尔 500 指 数 ) 的 
相关 系数 感 兴 趣 。 我 们 可 以 通过 计算 百分数 变化 并 
使 用 rolling_corr 的 方式 得 到 该 结果 【如 图 10-12 所 
示 ) : 





In [569]: spx_px = close px _ all ['SPX'] 
In [570]: spx_rets = spx_px / spx_px.shift(1) - 1 
In [571]: returns = close px.pct_change() 


In [572]: corr = pd.rolling corr(returns.AAPL, spx_rets, 125, 





In [573]: corr.plot() 
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图 10-12: AAPL 6 个 月 的 回报 与 标准 普尔 500 指 数 的 
相关 系数 


假设 你 想 要 一 次 性 计算 多 只 股票 与 标准 普尔 
500 指 数 的 相关 系数 。 虽 然 编写 一 个 循环 并 新 建 一 
个 DataFrame 不 是 什么 难事 ， 但 比较 唆 。 其 实 ， 只 
需 传 入 一 个 TimeSeries 和 一 个 DataFrame， 
rolling_corr 束 会 目 动 计 算 TimeSeries 〈 本 例 中 融 是 
spx_rets) 与 DataFrame 各 列 的 相关 系数 。 结 果 如 图 
10-13 所 示 : 


In [575]: corr = pd.rolling corr(returns, spx_rets, 125, min_p 








In [576]: corr.plot() 
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图 10-13: 3 只 股票 6 个 月 的 回报 与 标准 普尔 500 指 数 
的 相关 系数 





用 户 定 义 的 移动 窗口 函数 


rolling_apply 函 数 使 你 能 够 在 移动 窗口 上 应 用 
目 己 设计 的 数组 函数 。 唯 一 要 求 的 承 是 ;该 函数 要 
能 从 数组 的 各 个 片段 中 产生 单个 值 〈 即 约 简 ) 。 比 
如 说 ， 当 我 们 用 rolling_quantile 计 算 样本 分 位 数 
时 ， 可 能 对 样本 中 特定 值 的 百 分 等 级 感 兴趣 。 
scipy.stats.percentileofscore 函 数 束 能 达到 这 个 目的 : 
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图 10-14: AAPL 2% 回 报 率 的 百 分 等 级 (一 年 窗口 
期 ) 


In [578]: from scipy.stats import percentileofscore 


70 











In [579]: score at 2percent = lambda x: percentileofscore(x, C€ 
In [580]: result = pd.rolling apply(returns.AAPL, 250, score a 


译注 8， 这 是 针对 窗口 而 言 的 ， 即 一 个 窗口 里 面 必 
须 有 多 少 个 非 NA 值 。 
译注 9， 不 设置 就 全 空 ， 也 不 要 太 大 ， 大 了 就 无 意 
义 了 。 

译注 10， 就 是 不 加 权 的 普通 移动 平均 。 








性 能 和 内 存 使 用 方面 的 注意 事项 


Timestamp 和 Period 都 是 以 64 位 整数 表示 的 《〈 即 
NumPy 的 datetime64 数 据 关 型 ) 。 也 束 是 说 ， 对 于 
每 个 数据 点 ， 其 时 间 惟 需要 占用 8 字 贡 的 内 存 。 
此 ， 含 有 一 百 万 个 float64 数 据点 的 时 间 序 列 需 要 占 
用 大 约 16MB 的 内 存 空间 。 由 于 pandas 会 尽量 在 多 
个 时 间 友 列 之 间 共 对 索引 ， 所 以 创建 现 有 了 时间 序 列 
的 视图 不 会 占用 更 多 内 存 11。 此 外 ， 低 频率 索 
引 《 日 以 上 ) 会 被 存放 在 一 个 中 心 缓存 中 ， 所 以 任 
何 固定 频率 的 索引 都 是 该 日 期 缓存 的 视图 。 所 以 ， 
如 果 你 有 一 个 很 大 的 低频 紊 时间 序 列 ， 索 引 所 占用 
的 内 存 空间 将 不 会 很 大 。 

性 能 方面 ，pandas 对 数据 对 齐 〈 两 个 不 同 索 引 
的 ts1+ts2 的 幕后 工作 ) 和 重 采 样 运算 进行 了 高 度 优 
化 。 下 面 这 个 例子 将 一 亿 个 数据 点 聚合 为 OHLC: 


In [582]: rng = pd.date_ range('1/1/2000', periods=10000000, fr 














In [583]: ts = Series(np.random.randn(len(rng)), index=rng) 


In [584]: ts 

Out[584]: 

2000-01-01 00:00:00 -1.402235 
2000-01-01 00:00:00.010000 2.424667 
2000-01-01 00:00:00.020000 -1.956042 
2000-01-01 00:00:00.030000 -0.897339 


2000-01-02 03:46:39.960000 0.495530 


2000-01-02 03:46:39.970000 0.574766 
2000-01-02 03:46:39.980000 1.348374 
2000-01-02 03:46:39.990000 0.665034 
Freq: 10L, Length: 10000000 


In [585]: ts.resample('15min', how='ohlc') 

Out[585]: 

<class 'pandas.core.frame.DataFrame'> 

DatetimeIndex: 113 entries, 2000-01-01 00:00:00 to 2000-01-02 


Freq: 15T 

Data columns: 

open 113 non-null values 
high 113 non-null values 
lJow 113 non-null values 
close 113 non-null values 


dtypes: float64(4) 


In [586]: %timeit ts.resample('15min', how='ohlc') 
10 loops, best of 3: 61.1 ms per loop 


运行 时 间 跟 聚合 结果 的 相对 大 小 有 一 定 关 系 ， 
越 蜗 频 率 的 聚合 所 耗 纤 的 时 间 越 多 : 


In [587]: rng = pd.date_range('1/1/2000', periods=10000000, fr 





In [588]: ts = Series(np.random.randn(len(rng)), index=rng) 


In [589]: %timeit ts.resample('15s', how='ohlc') 
1 loops, best of 3: 88.2 ms per loop 


可 能 在 你 阅读 本 书 的 时 候 ， 这 些 算法 的 性 能 
经 大 为 改进 了 。 比 如 说 ， 目 前 并 没有 对 规则 频率 之 
间 的 转换 做 任何 优化 ， 但 这 肯定 是 要 做 的 。 


译注 11: 原文 就 是 这 么 表达 的 。 我 感到 很 不 解 ， 既 
然 是 视 网 ， 当 然 不 会 司 用 多 少 内 容 ， 半 竟 就 是 比 单 
个 指针 大 点 的 东西 而 已 。 结 合 上 下 文 来 看 ， 估 计 说 

















的 只 是 索引 的 问题 。 


第 11 章 ”金融 和 经 济 数 据 应 用 


从 2005 年 开始 ，Python 在 金融 行业 中 的 应 用 越 
来 越 多 ， 这 主要 得 益 于 众多 成 熟 的 图 数 库 (NumPy 
和 pandas) 以 及 大 量 经 验 丰 军 的 Python 程序 员 。 许 
多 机 构 都 发 现 Python 不 仅 非 常 适合 成 为 交互 式 的 分 
析 环 境 ， 也 非常 适合 开发 稳健 的 系统 ， 而 且 所 十 的 
时 [ 司 比 Java 或 C++ 人 少 得 多 Python 还 是 一 种 非常 好 
的 粘 合 层 ， 可 以 非常 轻松 地 为 C 或 C++ 编写 的 库 构 
建 Python 接 口 。 


金融 分 析 领 域 的 内 容 博大 精深 ， 甚 至 拿 一 整 本 
书 来 讲 都 不 为 过 ， 在 这 里 我 只 是 希望 告诉 你 如 何 利 
用 本 书 中 的 工具 去 解决 金融 领域 中 的 一 些 特殊 问 
题 。 跟 其 他 的 研究 和 分 析 领 域 一 样 ， 在 数据 规整 化 
方面 所 花费 的 精力 第 常会 比 解 决 核心 建 模 和 研究 问 
题 所 伦 届 的 要 多 得 多 。 就 是 因为 找 不 到 合适 的 数据 
处 理工 具 ， 所 以 我 才 在 2008 年 开始 创立 pandas 的 。 


在 本 章 的 示例 中 ， 我 将 使 用 术语 “ 截 
面 ”(cross-section〉 来 表示 某 个 时 间 点 的 数据 。 例 
如 ， 标 准 普尔 500 指 数 中 所 有 成 分 股 在 特定 日 期 的 
收盘 价 就 形成 了 一 个 截面 。 多 个 数据 项 (例如 价格 
和 成 交 量 ) 在 多 个 时 间 点 的 截面 数据 就 构成 了 一 个 
面板 (panel) 。 面 板 数据 既 可 以 被 表示 为 层次 化 索 











引 的 DataFrame， 也 可 以 被 表示 为 三 维 的 Panel 
pandas 对 象 。 


数据 规整 化 方面 的 话题 


前 面 几 章 中 陆 陆续 续 介 绍 过 一 些 不 错 的 数据 规 
整 化 工具 。 这 里 ， 我 将 肴 重 介绍 一 些 跟 金融 问题 域 
有 天 的 话题 。 


时 间 序 列 以 及 鹤 面 对 齐 


在 处 理 金 融 数 据 时 ， 最 费 神 的 一 个 问题 就 是 所 
谓 的 “数据 对 齐 ”(data alignment) 问题。 两 个 相关 
的 时 间 序 列 的 索引 可 能 没有 很 好 的 对 齐 ， 或 两 个 
DataFrame 对 象 可 能 含有 不 匹配 的 列 或 行 。 
MATLAB、R 以 及 其 他 和 矩 阵 编程 语言 的 用 户 常 常 需 
要 花费 大 量 的 精力 将 数据 规整 化 为 完全 对 齐 的 形 
式 。 以 我 的 经 验 来 看 ， 手 工 处 理 数 据 对 齐 问 题 是 一 
件 令 人 非常 郁 间 的 工作 ， 而 验证 数据 是 否 对 齐 则 还 
要 更 郁闷 一 些 。 不 仅 如 此 ， 合 并 未 对 齐 的 数据 还 很 
有 可 能 带 来 各 种 bug。 


pandas 可 以 在 算术 运算 中 目 动 对 齐 数据 。 在 实 
际 工作 当中 ， 这 不 仅 能 为 你 市 来 极 大 的 和 目 由 上 度 ， 而 
且 还 能 提高 你 的 工作 效率 。 来 看 下 面 这 两 个 
DataFrame， 它 们 分 别 含 有 股票 价格 和 成 交 量 的 时 
间 序列 下 于 1， 


























In [16]: prices 
Out[16] : 

AAPL JNJ SPX XOM 
2011-09-06 379.74 64.64 1165.24 71.15 
2011-09-07 383.93 65.43 1198.62 73.65 
2011-09-08 384.14 64.95 1185.90 72.82 
2011-09-09 377.48 63.64 1154.23 71.01 
2011-09-12 379.94 63.59 1162.27 71.84 
2011-09-13 384.62 63.61 1172.87 71.65 
2011-09-14 389.30 63.73 1188.68 72.64 
In [17]: volume 
Out[17]: 

AAPL JNJ XOM 
2011-09-06 18173500 15848300 25416300 
2011-09-07 12492000 10759700 23108400 
2011-09-08 14839800 15551500 22434800 
2011-09-09 20171900 17008200 27969100 
2011-09-12 16697300 13448200 26205800 
卫 、 pny YI 、 A > 一 用 . 
假设 你 想 要 用 所 有 有 效 数 据 计 算 一 个 成 交 量 加 


权 平 均 价 格 〈 为 了 人 简单 起 见 ， 假 设 成 交 量 数据 是 价 
格 数据 的 子 集 ) 。 由 于 pandas 会 在 算术 运算 过 程 中 
自动 将 数据 对 齐 ， 并 在 sum 这 样 的 函数 中 排除 缺失 
数据 ， 所 以 我 们 只 需 编 写 下 面 这 条 简洁 的 表达 式 即 
9]: 





In [18]: prices * volume 
Out[18]: 

AAPL JNJ SPX XOM 
2011-09-06 6901204890 1024434112 NaN 1808369745 
2011-09-07 4796053560 704007171 NaN 1701933660 
2011-09-08 5700560772 1010069925 NaN 1633702136 
2011-09-09 7614488812 1082401848 NaN 1986085791 
2011-09-12 6343972162 855171038 NaN 1882624672 
2011-09-13 NaN NaN NaN NaN 
2011-09-14 NaN NaN NaN NaN 
In [19]: vwap = (prices * volume).sum() / volume.sum() 


In [20]: vwap In [21]: vwap.dropna() 


Out [20]: Out[21]: 

AAPL 380 .655181 AAPL 380 .655181 
JNJ 64.394769 JNJ 64.394769 
SPX NaN XOM 72.024288 
XOM 72.024288 


由 于 SPX 在 volume 中 找 不 到 ， 所 以 你 随时 可 以 
显 式 地 将 其 丢弃。 如 果 希 望 手工 进行 对 齐 ， 可 以 使 
用 DataFrame 的 align 方 法 ， 它 返回 的 是 一 个 元 组 ， 
含有 两 个 对 象 的 重 索 引 版 本 : 


In [22]: prices.align(volume, join="'inner') 
Out[22]: 





( AAPL JNJ XOM 
2011-09-06 379.74 64.64 71.15 
2011-09-07 383.93 65.43 73.65 
2011-09-08 384.14 64.95 72.82 
2011-09-09 377.48 63.64 71.01 
2011-09-12 379.94 63.59 71.84, 

AAPL JNJ XOM 
2011-09-06 18173500 15848300 25416300 
2011-09-07 12492000 10759700 23108400 
2011-09-08 14839800 15551500 22434800 
2011-09-09 20171900 17008200 27969100 
2011-09-12 16697300 13448200 26205800) 


另 一 个 不 可 或 缺 的 功能 是 ， 通 过 一 组 索引 可 能 
不 同 的 Series 构 建 一 个 DataFrame。 
In [23]: si = Series(range(3), index=['a', 'b', 'c']) 


In [24]: s2 


Series(range(4), index=['d', 'b', 'c', 'e']) 
In [25]: s3 = Series(range(3), index=['f', 'a', 'c']) 


In [26]: DataFrame({'one': si, 'two': s2, 'three': s3}) 
Out[26]: 


one _ three two 


0 1 NaN 
1 NaN 1 
2 2 2 


NaN NaN 0 
NaN NaN 3 
NaN © NaN 


跟前 面 一 样 ， 这 里 也 可 以 显 式 定义 结果 的 索引 
( 丢 基 其 余 的 数据 〉: 


下 mmODO DOD 








In [27]: DataFrame({'one': si, 'two': s2, 'three': s3}, index= 
Out[27]: 
one three two 
f NaN 0 NaN 
a 0 1 NaN 
C 2 2 2 
e NaN NaN 3 


频率 不 同 的 时 间 序 列 的 运算 


经 济 学 时 间 序 列 常 党 有 着 按 年 、 季 、 月 、 日 计 
算 的 或 其 他 更 特殊 的 频率 。 有 些 完 全 束 是 不 规则 
的 ， 比 如 说 ， 鼻 利 了 预测 调整 随时 都 可 能 会 友 生 。 频 
率 转 换 和 重 对 齐 的 两 大 主要 工具 是 resample 和 
reindex 方 法 。resample 用 于 将 数据 转 换 到 国定 频 
率 ， 而 reindex 则 用 于 使 数据 符合 一 个 新 乏 引 。 它 们 
都 文 持 插值 《如 前 问 填 序 ) 逻辑 。 


来 看 一 个 简单 的 周 型 时 间 序 列 : 


In 0 tsi = Series(np.random.randn(3), 
index=pd.date_range('2012-6-13', periods 























In [29]: 
Out[29] : 
2012-06-13 
2012-06-20 
2012-06-27 
Freq: W-WED 


如 果 将 其 


洞 ”: 


In [30]: 
Out[30]: 


ts1i 


-1.124801 
© .469004 
-0.117439 


重 采样 到 工作 日 (星期 一 到 星期 五 ) 
频率 ， 则 那些 没有 数据 的 日 子 就 会 出 现 一 个 “ 空 


tsi.resample('B') 


-1.124801 
NaN 
NaN 
NaN 
NaN 
© .469004 
NaN 


-0.117439 


当然 ， 只 需 将 fl method 设 置 为 ffill' 即 可 用 前 


面 的 值 填充 这 些 空白 。 


这 么 干 ， 因 为 最 终结 果 中 各 时 间 点 部 有 一 


有 效 值 : 


In [31]: 
Out[31]: 
2012-06 - 
2012-06 - 
2012-06 - 
2012-06 - 


处 理 较 低频 率 的 数据 时 名 





tsi.resample('B', 


-1.124801 
-1.124801 
-1.124801 
-1.124801 


fill_ method="'ffill"') 


个 最 新 的 


2012-06-19 -1.124801 
2012-06-20 0.469004 
2012-06-21 0.469004 
2012-06-22 0.469004 
2012-06-25 0.469004 
2012-06-26 0.469004 
2012-06-27 -0.117439 
Freq: B 


在 实际 工作 当中 ， 将 较 低 频率 的 数据 升 采 样 到 
较 高 的 规整 频率 是 一 种 不 错 的 解决 方案 ， 但 是 对 于 
更 一 般 化 的 不 规整 时 间 序 列 可 能 就 不 太 合 适 了 。 看 
看 下 和 面 这 个 不 规整 样本 的 时 间 友 列 〈( 各 时 间 点 更 一 
般 化 ) : 

In [32]: dates = pd.DatetimeIindex(['2012-6-12', '2012-6-17', " 
A '2012-6-21', '2012-6-22', 

In [33]: ts2 = Series(np.random.randn(6), index=dates) 


In [34]: ts2 


Out[341]: 

2012-06-12 -0.449429 
2012-06-17 0.459648 
2012-06-18 -0.172531 
2012-06-21 0.835938 
2012-06-22 -0.594779 
2012-06-29 0.027197 





如 果 要 将 tsl 中 “最 当前 ”的 值 〈 即 前 问 填 充 〉 加 
到 ts2 上 。 一 个 办 法 是 将 两 者 重 采 样 为 规整 频率 后 再 
相 加 ， 但 是 如 果 想 维持 ts2 中 的 日 期 索引 ， 则 reindex 
会 是 一 种 更 好 的 解决 方案 : 


In [35]: tsi.reindex(ts2.index, method='ffil1l') 
Out[35]: 








2012-06-12 NaN 
2012-06-17 -1.124801 
2012-06-18 -1.124801 
2012-06-21 © .469004 
2012-06-22 © .469004 
2012-06-29 -0.117439 


In [36]: ts2 + tsl.reindex(ts2.index，method= 'ffil1') 
Out[36 |] : 

2012-06-12 NaN 

2012-06-17 -0.665153 

2012-06-18 -1.297332 

2012-06-21 1.304942 

2012-06-22 -0.125775 

2012-06-29 -0.090242 


使 用 Period 


Period 〈 表 示 时 间 区 间 ) 提供 了 另 一 种 处 理 不 
同 频率 时 间 序 列 的 办 法 ， 尤 其 是 那些 有 着 特殊 规 疙 
的 以 年 或 季度 为 频率 的 金融 或 经 济 序 列 。 比 如 说 ， 
一 个 公司 可 能 会 发 布 其 以 6 月 结尾 的 财 年 的 每 季度 
鳃 利 报告 ， 即 频率 为 Q-JUN。 来 看 两 个 有 关 GDP 和 
通货 脱 胀 的 宏观 经 济 时 间 序 列 : 


In [37]: gdp = Series([1.78, 1.94, 2.08, 2.01, 2.15, 2.31, 2.4 
i index=pd.period_range('1984Q2', periods 








In [38]: infl = Series([0.025, 0.045, 0.037, 0.04], 
ee index=pd.period _ range('1982', periods=4 


In [39]: gdp In [40]: infl 
Out[39]: Out[40]: 

1984Q2 1.78 1982 0 .025 
1984Q3 1.94 1983 0.045 
1984Q4 2.08 1984 0.037 


1985Q1 2.01 1985 0.040 


1985Q2 2.15 Freq: A-DEC 
1985Q3 2.31 

1985Q4 2.46 

Freq: Q-SEP 


跟 Timestamp 的 时 间 序 列 不 同 ， 由 Period 索 引 的 
两 个 不 同 频 率 的 时 间 序 列 之 则 的 运算 必须 进行 显 式 
转换 。 在 本 例 中 ， 假 设 已 知 infl 值 是 在 每 年 年 末 观 
测 的 ， 于 是 我 们 束 可 以 将 其 转换 到 Q-SEP 以 得 到 该 
频率 下 的 正确 时 期 : 


In [41]: infl q = infl.asfreq('Q-SEP', how='end') 











In [42]: infl_q 
Out[421]: 

1983Q1 0.025 
1984Q1 0.045 
1985Q1 0.037 
1986Q1 0.040 
Freq: Q-SEP 


然后 这 个 时 间 序 列 束 可 以 被 重 索 引 了 使 用 前 
器 填充 以 匹配 gdp) l 


In [43]: infl_q.reindex(gdp.index, method="'ffill'") 
Out[43]: 

1984Q2 0.045 

1984Q3 0.045 

1984Q4 0.045 

1985Q1 0.037 

1985Q2 0.037 

1985Q3 0.037 

1985Q4 0.037 

Freq: Q-SEP 


时 间 和 “最 当前 ”数据 选取 


假设 你 有 一 个 很 长 的 盘 中 市 场 数据 时 间 序 列 ， 
现在 希望 抽取 其 中 每 天 特定 时 间 的 价格 数据 。 如 果 
数据 不 规整 《观测 值 没有 精确 地 落 在 期 望 的 时 间 点 
上 ) ， 该 怎么 办 ? 在 实际 工作 当中 ， 如 宁 不 够 小 心 
仔细 的 话 ， 很 容易 导致 错误 的 数据 规整 化 。 看 看 下 
面 这 个 例子 : 


六 年 成 一 不 交易 日 两 的 日 期 范围 和 时 间 序 习 ED 
In [44]: rng = pd.date range('2012-06-01 09:30', '2012-06-01 1 











# 生成 5 天 的 时 间 点 (9:30~15:59 之 间 的 值 ) 
In [45]: rng = rng.append([rng + pd.offsets.BDay(i) for 工 In r 


In [46]: ts = Series(np.arange(len(rng), dtype=float), index=r 


In [47]: ts 

Out[47]: 

2012-06-01 09:30:00 0 
2012-06-01 09:31:00 1 
2012-06-01 09:32:00 2 
2012-06-01 09:33:00 3 
2012-06-06 15:56:00 1556 
2012-06-06 15:57:00 1557 
2012-06-06 15:58:00 1558 
2012-06-06 15:59:00 1559 


Length: 1560 


利用 Python 的 datetime.time 对 象 进 行 索引 即 可 
抽取 出 这 些 时 间 点 上 的 值 : 


In [48]: from datetime import time 


In [49]: ts[time(10, 0)] 
Out[49] : 

2012-06-01 10:00:00 30 
2012-06-04 10:00:00 420 


2012-06-05 10:00:00 810 
2012-06-06 10:00:00 1200 


实际 上 ， 该 操作 用 到 了 实例 方法 at_time (各 时 
间 序 列 以 及 类 似 的 DataFrame 对 象 都 有 ) : 





In [50]: ts.at_ time(time(10, 0)) 


Out[50]: 

2012-06-01 10:00:00 30 
2012-06-04 10:00:00 420 
2012-06-05 10:00:00 810 


2012-06-06 10:00:00 1200 


还 有 一 个 between time 方 法 ， 它 用 于 选取 两 个 
Time 对 象 之 间 的 值 : 


In [51]: ts.between time(time(10, 0), time(10, 1)) 


Out[51] : 

2012-06-01 10:00:00 30 
2012-06-01 10:01:00 31 
2012-06-04 10:00:00 420 
2012-06-04 10:01:00 421 
2012-06-05 10:00:00 810 
2012-06-05 10:01:00 811 
2012-06-06 10:00:00 1200 


正如 之 前 提 到 的 那样 ， 可 能 刚好 就 没有 任何 数 
据 落 在 某 个 具体 的 时 间 上 《比如 上 午 10 点 ) 。 这 
时 ， 你 可 能 会 希望 得 到 上 午 10 点 之 前 最 后 出 现 的 那 
5 站 ， 


# 将 该 时 间 友 列 的 六 部 分 内 容 随 机 充 直 为 NA 
In [53]: indexer = np.sort(np.random.permutation(len(ts))[700: 








In [54]: irr_ts = ts.copy() 


In [55]: irr_ts[indexer] = np.nan 


In [56]: irr_ts['2012-06-01 09:50':'2012-06-01 10:00'] 
Out[56]: 


如 果 将 一 组 Timestamp 传 入 asof 方 法 ， 融 能 得 到 
这 些 时 间 点 处 (或 其 之 前 最 这) 的 有 效 值 〈 非 
NA) 。 例 如 ， 我 们 构造 一 个 日 期 范围 《每 天 上 午 
10 点 ) ， 然 后 将 其 传 入 asof: 


In [57]: selection = pd.date range('2012-06-01 10:00', periods 





In [58]: irr_ts.asof(selection) 


Out[58 ] : 
2012-06-01 10:00:00 29 
2012-06-04 10:00:00 419 
2012-06-05 10:00:00 810 
2012-06-06 10:00:00 1198 
Freq: B 


拼接 多 个 数据 源 


在 第 7 半 中 ， 我 介绍 了 一 些 合并 两 个 相关 数据 
集 的 办 法 。 在 金融 或 经 济 领 域 中 ， 还 有 为 外 几 个 经 


各 出 现 的 情况 : 


:在 一 个 特定 的 时 间 点 上 ， 从 一 个 数据 源 切 换 
到 为 一 个 数据 源 。 


-用 为 一 个 时 间 序 列 对 当前 时 间 序 列 中 的 缺失 
但] 


-将 数据 中 的 符 写 (国家 、 资 产 代码 等 ) 替换 
为 实际 数据 。 


对 于 第 一 种 情况 ， 在 特定 时 刻 从 一 个 时 间 序 列 
切换 到 男 一 个 ， 其 实 束 是 用 pandas.concat 将 两 个 
TimeSeries 或 DataFrame 对 象 合 并 到 一 起 : 














In [59]: datal = DataFrame(np.ones((6, 3), dtype=float), 
i columns=['a', 'b', 'c'], 
index=pd.date_range('6/12/2012', pe 


In [60]: data2 = DataFrame(np.ones((6, 3), dtype=float) * 2, 
Re columns=['a', 'b', 'c'], 
index=pd.date_range('6/13/2012', pe 


In [61]: spliced = pd.concat([datai1.ix[:'2012-06-14'], data2.i 


In [62]: spliced 
Out[621]: 


2012-06-12 
2012-06-13 
2012-06-14 
2012-06-15 
2012-06-16 
2012-06-17 
2012-06-18 


记 记 记忆 上 上 岂 
DODOoDPPPDO 
记 记 PP 局 


再 看 另 一 个 简单 的 例子 ， 假 设 datal 缺 失 了 
data2 中 存在 的 某 个 时 间 序 列 : 


In [113]: data2 = DataFrame(np.ones((6, 4), dtype=float) * 2, 
columns=['a', 'b', 'c', 'd'], 
index=pd.date_range('6/13/2012', r 
In [64]: spliced = pd.concat([datai1.ix[:'2012-06-14'], data2.i 


In [65]: spliced 


Out[65]: 

a b c d 
2012-06-12 1 1 1 NaN 
2012-06-13 1 1 1 NaN 
2012-06-14 1 1 1 NaN 
2012-06-15 2 2 2 2 
2012-06-16 2 2 2 2 
2012-06-17 2 2 2 2 
2012-06-18 2 2 2 2 


combine_first 可 以 引入 合并 点 之 前 的 数据 ， 这 
样 也 就 扩展 了 'd 项 的 历史 : 
In [66]: spliced_ filled = spliced.combine_first(data2) 


In [67]: spliced_ filled 
Out[67]: 


Na 


DD 

© 

2 

Dh 

© 

O) 

上 

ol 
DDDDODDODPPAPDY 
DDDDODDOPPPDO 
DODODDPOPPPO 
Nm 二 = 


由 于 data2 没 有 关于 2012-06-12 的 数据 ， 所 以 也 
束 没 有 值 被 填充 到 那 一 天 。 


DataFrame 也 有 一 个 类 似 的 方法 update， 它 可 以 
实现 就 地 更 新 。 如 果 只 想 填 充 空 洞 ， 则 必须 传 入 


overwrite=False 才 行 : 


In [68]: spliced.update(data2, overwrite=False) 


In [69]: spliced 
Out[69]: 


2012-06-12 
2012-06-13 
2012-06-14 
2012-06-15 
2012-06-16 
2012-06-17 
2012-06-18 


上 面 所 讲 的 这 些 技术 都 可 实现 将 数据 中 的 符号 
蔡 换 为 实际 数据 ， 但 有 时 利用 DataFrame 的 索引 机 
制 直 接 对 列 进行 设置 会 更 简单 一 些 : 


In [70]: cp_spliced = Spliced.copy() 


DDODDDDPODPPAPYD 
记 记 PP 上 避 
DDDPPPO 
PPNPPPDPP 二 上 


In [71]: cp_spliced[['a', 'c']] = datai[['a', 'c']] 


In [72]: cp_spliced 
Out[721]: 


a 
2012-06-12 J 
2012-06-13 1 
2012-06-14 1 
2012-06-15 1 
2012-06-16 1 
2012-06-17 4 
2012-06-18 NaN 


收益 指数 和 累计 收益 


DDDDPoPPPTDO 


乙 
[ey 
DPPCO 


ZAPPAPPO 


在 金融 领域 中 ， 收 益 (return) 通常 指 的 是 某 

资产 价格 的 百分比 变化 。 我 们 来 看 看 2011 年 到 2012 

Se Sh :又 从 
年 间 苹 果 公 司 的 股票 价格 数据 ">; 

In [73]: import pandas.io.data as web 

In [74]: price = web.get_ data yahoo('AAPL', '2011-01-01' )[ Adj 

In [75]: price[-5:] 

Out[75]: 

Date 

2012-07-23 603.83 

2012-07-24 600.92 

2012-07-25 574.97 

2012-07-26 574.88 


2012-07-27 585 .16 
Name: Adj Close 


对 于 苹果 公司 的 股票 〈 没 有 股息 评注 4) ， 计 算 
两 个 时 间 点 之 间 的 累计 百分比 回报 只 需 计 算 价格 的 
百分比 变化 即 可 : 


In [76]: price['2011-10-03'] / price['2011-3-01'] - 1 
Out[76]: 0.072399874037388123 


对 于 其 他 那些 派 及 股 奶 的 股票 ， 要 计算 你 在 菏 
只 股票 上 赚 了 多 少 钱 就 比较 复杂 了 了。 不 过 ， 这 里 所 
使 用 的 已 调整 收盘 价 已 经 对 拆 分 和 股 姑 做 出 了 调 
整 。 不 窒 什 么 样 的 情况 ， 通 第 部 会 完 算 出 一 个 收 荔 
指数 ， 它 是 一 个 表示 单位 投资 (比如 1 美元 〉 收益 
的 时 间 序 列 。 从 收益 指数 中 可 以 得 出 许多 假设 。 例 
如 ， 人 们 可 以 决定 是 人 否 进行 利 调 再 投资 。 对 于 蔷 琳 


公司 的 情况 ， 我 们 可 以 利用 cumprod 计 算出 一 个 简 
单 的 收益 指数 : 


In [77]: returns = price.pct_change() 





In [78]: ret_index = (1 + returns).cumprod() 
In [79]: ret_index[9] = 1 # 将 第 一 个 值 设置 为 1 


In [80]: ret_index 


Out[80] : 

Date 

2011-01-03 1.000000 
2011-01-04 1.005219 
2011-01-05 1.013442 
2011-01-06 1.012623 
2012-07-24 1.823346 
2012-07-25 1.744607 
2012-07-26 1.744334 
2012-07-27 1.775526 
Length: 396 





得 到 收益 指数 之 后 ， 计 算 指 定时 期 内 的 索 计 收 
得 就 很 简单 了 : 


In [81]: m_returns = ret_index.resample('BM', how='last').pct_ 


In [82]: m_returns[ '2012 ' |] 


Out[82]: 

Date 

2012-01-31 © .127111 
2012-02-29 ©0.188311 
2012-03-30 0.105284 
2012-04-30 -0.025969 
2012-05-31 -0.010702 
2012-06-29 0.010853 
2012-07-31 0.001986 


Freq: BM 


当然 了 ， 婚 这 个 简单 的 例子 而 言 《 没 有 股 奶 也 
没有 其 他 需要 考虑 的 调整 )， 上 面 的 结果 也 能 通过 
重 采 样 聚合 〈 这 里 聚合 为 时 期 ) 从 日 百分比 变化 中 
计算 得 出 : 


In [83]: mrets = (1 + returns).resample('M', how='prod', kind 


In [84]: m_rets['2012'] 


Out[841]: 

Date 

2012-01 © .127111 
2012-02 0.188311 
2012-03 0.105284 
2012-04 -0.025969 
2012-05 -0.010702 
2012-06 0,.010853 
2012-07 0.001986 
Freq: M 


如 果 知 道 了 股 恩 的 派发 日 和 支付 紊 ， 束 可 以 将 
它们 计 入 到 每 日 总 收益 中 ， 如 下 所 示 : 


returns[dividend dates] += dividend_pcts 
译注 1， 此 处 代码 不 完整 ， 需 要 加 载 ch11 的 两 个 csv 
文件 ， 然 后 稍 作 处 理 即 可 得 到 这 里 所 需 的 素材 。 
译注 2:; 这 里 生成 的 只 是 索引 ， 没 有 时 间 序 列 。 
译注 3: 直接 使 用 这 段 代 码 获 取 的 数据 会 多 很 多 ， 
因为 没有 截止 日 期 ， 建 议 使 用 
price=web.get_data_yahoo( AAPL'",'2011-01-01","2012- 
07-27)['Adj ”Close]。 此 外 ， 由 于 这 里 获取 的 是 Adj 
Close， 所 以 数据 本 身 也 会 有 一 些 不 同 。 
译注 4: 现在 已 经 派 过 股 居 了 了。 





分 组 变换 和 分 析 


在 第 9 草 中 ， 我 们 学 习 了 分 组 统计 计算 的 基础 
知识 ， 还 学 习 了 如 何 对 数据 集 的 分 组 应 用 目 定 义 的 
变换 函数 。 


下 面 以 一 组 假想 的 股票 投资 组 合 为 例 。 首 先 我 
随机 生成 1000 个 股票 代码 : 


import random; random.seed(0) 
import string 





N = 1000 
def rands(n): 

choices = string.ascii uppercase 

return ''.join([random.choice(choices) for _ in xrange(n)] 
tickers = np.array([rands(5) for in xrange(N)]) 


然后 创建 一 个 含有 3 列 的 DataFrame 来 承载 这 些 
假想 数据 ， 不 过 只 选择 部 分 股票 组 成 该 投资 组 合 : 
M = 500 
df = DataFrame({'Momentum' : np.random.randn(M) / 200 + 0.03, 
'Value' : np.random.randn(M) / 200 + 0.08, 


'ShortInterest' : np.random.randn(M) / 200 - 0 
index=tickers[:M]) 


接 下 来 ， 我 们 为 这 些 股票 随机 创建 一 个 行业 分 
类 。 为 了 人 简单 起 见 ， 我 只 选用 了 两 个 行业 ， 并 将 映 
射 关 系 保 存在 Series 中 : 





ind_names = np.array(['FINANCIAL', 

sampler = np.random.randint(0, len(ind_names), N) 

industries = Series(ind names[sampler]|], index=tickers, 
name='industry') 


现在 ， 我 们 束 可 以 根据 行业 分 类 进行 分 组 并 执 
行 分 组 聚合 和 变换 了 : 


In [90]: by_industry = df.groupby(industries) 


In [91]: by_industry. 
Out[911]: 


Momentum 
industry 
FINANCIAL 0.029485 
TECH 0 .030407 


In [92]: by_industry. 
Out[921]: 


industry 

FINANCIAL count 
mean 
std 
min 
25% 
5O% 
75% 
max 

TECH count 
mean 
std 
min 
25% 
509%6 
75% 
max 


有 要 对 这 些 按 行 业 分 组 的 投资 组 合 进行 各 种 变 


mean() 
ShortInterest 


-0.020739 
-0.019609 


describe() 
Momentum 


246.000000246 
,029485 
.004802 
.©017210 
.©026263 
.029261 
,032806 
,045884 
,000000 
,030407 
,005303 
,016778 
,026456 
,030650 
,033602 
,049638 


| 
Ol 
OOOOOOONSOOOOOO0OO 


"TECH"']) 


Value 


0.079929 
0 .080113 


ShortInterest 


.000000 
-0 ， 
0 ， 
-0 ， 
-0 ， 
-0 ， 
-0 ， 
-0 ， 
254. 
-0. 
0 ， 
-0 ， 
-0 
-0 ， 
-0 ， 
-0 ， 


.022779 


246 .000000 
020739 
004986 
036997 
024138 
020833 
017345 
006322 
000000 25 
©019609 
005074 
032682 


019829 
016923 
003698 


OOOOOOONSOOOOOO0O 


Val 


.©0799 
.©0045 
,0670 
,0766 
.0798 
.©0827 
,0933 
,0000 
,0801 
,0048 
,0652 
,0767 
,0802 
,0833 
,0930 


换 ， 我 们 可 以 编写 目 定 义 的 变换 函数 。 例 如 行业 内 


标准 化 处 理 ， 它 广泛 用 于 股票 资产 投资 组 合 的 构建 
过 程 : 
玉 行 亚 两 标准 伦 丈 理 


def zscore(group ) : 
return (group - group.mean()) / group.std() 




















df_stand = by_industry.apply(zscore) 


这 样 处 理 之 后 ， 各 行业 的 平均 值 为 0， 标 准 差 
为 1: 


In [94]: df_stand.groupby(industries).agg(['mean', 'std']) 


Out[94]: 
Momentum ShortInterest Value 
mean std mean std mean 

industry 
FINANCIAL © 1 © 1 © 
TECH -0 1 -0 1 -0 





内 置 变换 函数 (如 rank) 的 用 法 会 更 简洁 一 


上 5 ， 
# 行业 内 降序 排名 
In [95]: ind_rank = by_industry.rank(ascending=False) 


In [96]: ind_rank.groupby(industries).agg(['min', max']) 
Out[96]: 


Momentum ShortInterest Value 
min max min max min max 
industry 
FINANCIAL 1 246 1 246 1 246 
TECH 1 254 1 254 1 254 





在 股票 投资 组 合 的 定量 分 析 中 , “排名 和 标准 
化 ”是 一 种 很 常见 的 变换 运算 组 合 。 通 过 将 rank 和 


zscore 链 接 在 一 起 即 可 完成 整个 变换 过 程 ， 就 像 下 
面 这 样 : 


# 行业 内 排名 和 标准 化 
In [97]: by_industry.apply(lambda x: zscore(x.rank())) 
Out[97]: 


<class 'pandas.core.frame.DataFrame'> 
Index: 500 entries, VTKGN to PTDQE 
Data columns: 

Momentum 500 non-null values 
ShortInterest 500 non-null values 
Value 500 non-null values 
dtypes: float64(3) 


分 组 因子 又 露 








因子 分 析 (factor analysis) 是 投资 组 合 定 量 管 
理 中 的 一 种 技术 。 投 资 组 合 的 持 有 量 和 性 能 (收益 
与 损失 ) 可 以 被 分 解 为 一 个 或 多 个 表示 投资 组 合 权 
重 的 因 了 于 《风险 因 了 于 就 是 其 中 之 一 ) 。 例 如 ， 某 只 
股票 的 价格 与 某 个 基准 《比如 标准 普尔 500 指 数 ) 
的 协 动 性 被 称 作 其 贝塔 风险 系数 (beta， 一 种 第 见 
的 风险 因 了 于 ) 。 下 面 以 一 个 人 为 构成 的 投资 组 合 为 
例 进 行 讲解 ， 它 由 三 个 随机 生成 的 因子 〈 通 第 称 为 
因子 载荷 ) 和 一 些 权 重 构成 : 


from numpy.random import rand 
faci, fac2, fac3 = np.random.rand(3, 1000) 








ticker_subset = tickers.take(np.random.permutation(N)[:1000]) 


# 因子 加 权 和 以 及 噪声 
port = Series(0.7 * faci - 1.2 * fac2 + 0.3 * fac3 + rand(1006 


index=ticker_subset) 
factors = DataFrame({'f1i': faci, 'f2': fac2, 'f3': fac3}, 
index=ticker_subset) 


各 因子 与 投资 组 合 之 间 的 矢量 相关 性 可 能 说 明 
不 了 什么 问题 : 
In [99]: factors.corrwith(port) 
Out [99] : 
f1 0.402377 


f2 -0.680980 
f3 0.168083 


计算 因子 暴露 的 标准 方式 是 最 小 二 乘 回归 。 使 
用 pandas.ols〈 将 factors 作 为 解释 变量 ) 即 可 计算 出 
整个 投资 组 合 的 暴露 : 


In [100]: pd.ols(y=port, x=factors).beta 














Out[100]: 

f1 0.761789 
f2 -1.208760 
f3 0.289865 


intercept 0.484477 


不 难看 出 ， 由 于 没有 给 投资 组 合 添加 过 多 的 随 
机 噪声 ， 所 以 原始 的 因 了 于 权重 基本 上 可 算是 恢复 出 
来 了 。 还 可 以 通过 groupby 计 算 各 行业 的 暴露 量 。 
为 了 达到 这 个 目的 ， 我 先 编写 了 一 个 函数 ， 如 下 所 
人 小 : 











def beta exposure(chunk, factors=None): 
return pd.ols(y=chunk, x=factors).beta 


然后 根据 行业 进行 分 组 ， 并 应 用 访 函 数 ， 传 入 
因子 载 集 的 DataFrame: 


In [102]: by_ind = port.groupby(industries) 
In [103]: exposures = by_ind.apply(beta exposure, factors=fact 


In [104]: exposures.unstack() 
Out[104]: 


f1 f2 f3 intercept 
industry 
FINANCIAL 0.790329 -1.182970 0.275624 0.455569 
TECH 0.740857 -1.232882 0.303811 0.508188 


十 分 位 和 四 分 位 分 析 


基于 样本 分 位 数 的 分 析 是 金融 分 析 师 们 的 为 一 
个 重要 工具 。 例 如 ， 股 票 投资 组 合 的 性 能 可 以 根据 
各 股 的 市 熏 率 被 划分 入 四 分 位 《四 个 大 小 相等 的 
块 ) 。 通 过 pandas.qcut 和 groupby 可 以 非常 轻松 地 实 
现 分 位 数 分 析 。 

在 下 面 这 个 例子 中 ， 我 们 利用 跟随 策略 或 动量 
交易 策略 通过 SPY 交 易 所 区 易 基 金 来 卖 标准 普尔 
500 指 数 。 你 可 以 从 Yahoo!Finance 下 载 价 格 历 史 : 


In [105]: import pandas.io.data as web 








In [106]: data = web.get_data yahoo('SPY', 12006-01-01' )™ 5 


In [107]: data 
Out [107] : 
<class 'pandas.core.frame.DataFrame'> 


DatetimeIndex: 1655 entries, 2006-01-03 00:00:00 to 2012-07-27 
Data columns: 


Open 1655 non-null values 
High 1655 non-null values 
Low 1655 non-null values 
Close 1655 non-null values 
Volume 1655 non-null values 


Adj Close 1655 non-null values 
dtypes: float64(5), int64(1) 


接 下 来 计算 日 收益 率 ， 并 编写 一 个 用 于 将 收益 
率 变换 为 趋势 信号 〈 通 过 滞后 移动 形成 ) 的 函数 : 


px = data[ 'Adj Close'| 
returns = px,pct_change( ) 


def to_index(rets ) : 
index = (1 + rets).cumprod() 
first_loc = max(index.notnull().argmax() - 1, 0) 
index.values[first_ loc] = 1 
return index 


def trend_signal(rets, lookback, lag): 


signal = pd.rolling_ sum(rets, lookback, min_periods=lookbse 
return signal.shift(1ag) 


通过 该 函数 ， 我 们 可 以 (单纯 地 ) 创建 和 测试 
一 种 根据 每 周 五 动量 信号 进行 交易 的 交易 策略 。 


In [109]: signal = trend_ signal(returns, 100, 3) 








In [110]: trade friday = signal.resample( 'W-FRI').resample('B' 


In [111]: trade_rets = trade_ friday.shift(1) * returns 


然后 将 该 策略 的 收益 率 转 换 为 一 个 收益 指数 ， 
并 绘制 一 张 图 表 ( 如 图 11-1 所 示 ): 


In [112]: to_index(trade_rets).plot() 




















图 11-1: SPY 动 量 策略 收益 指数 


假如 你 布 望 将 该 策略 的 性 能 按 不 同 大 小 的 交易 
期 波幅 进行 划分 。 年 度 标 准 关 是 计算 波幅 的 一 种 简 
单 苏 法 ， 我 们 可 以 通过 计算 夏普 比率 来 观察 不 同 让 
动机 制 下 的 风险 收益 率 : 


vol = pd,rollLing_std(returns，250，min_periods=200) * np.sqrt( 








def sharpe(rets, ann=250): 
return rets.mean() / rets.std() * np.sqrt(ann) 


现在 ， 利 用 qcut 将 vol 划分 为 四 等 份 ， 并 用 
sharpe 进 行 聚 合 : 
In [114]: trade_rets.groupby(pd.qcut(vol, 4)).agg(sharpe) 


Out[114] : 
[0.0955, 0.16] 0.490051 


(9.16，0,.188] 9.482788 
(0.188, 0.231] -0.731199 
(0.231, 0.457] 0.570500 


这 个 结 琳 说 明 ， 该 集 略 在 波幅 最 蜗 时 性 能 最 
好 。 
详 注 5: 跟前 面 说 的 一 样 ， 这 里 最 好 还 是 加 上 截止 
日 期 ， 侣 则 数据 会 比 书 上 介绍 的 多 。 


更 多 示例 应 用 


本 节 介 绍 一 些 其 他 的 例子 。 


在 本 小 节 中 ， 我 将 介绍 一 种 简化 的 截面 动量 投 
资 组 合 ， 并 告诉 你 如 何 得 到 模型 参数 化 网 格 。 首 
先 ， 我 将 金融 和 技术 领域 中 的 几 只 股票 做 成 一 个 投 
资 组 合 ， 并 加 载 它 们 的 历史 价格 数据 : 


return web.get_ data yahoo(stock, start, end)['Ad]j Close'| 
px = DataFrame({n: get_px(n, '1/1/2009', '6/1/2012') for n in 


我 们 可 以 轻松 绘制 每 只 股票 的 素 计 收益 〈“ 如 图 
11-2 所 未 ) : 
In [117]: px = px.asfreq('B').fillna(method='pad') 
In [118]: rets = px.pct_change() 


In [119]: ((1 + rets).cumprod() - 1).plot() 


对 于 投资 组 合 的 构建 ， 我 们 要 计算 特定 回顾 期 
的 动量 ， 然 后 按 降序 排列 并 标准 化 : 


def calc mom(price, lookback, lag): 
mom_ret = price.shift(1ag).pct_change(lookback) 


ranks = mom_ret.rank(axis=1, ascending=False) 
demeaned = ranks - ranks.mean(axis=1) 
return demeaned / demeaned.std(axis=1) 


利用 这 个 变换 函数 ， 我 们 再 编写 一 个 对 策略 进 
行事 后 检验 的 函数 : 通过 指定 回顾 期 和 持 有 期 买 
卖 之 则 的 日 数 ) 计算 投资 组 合 整体 的 夏普 比 座 。 


compound 
daily_sr 





= lambda x : (1 + x).prod() - 1 
= lambda x: x.mean() / x.std() 
def strat_sr(prices, lb, hold): 

# 计算 投资 组 合 权 重 

freq '%dB' % hold 

port calc_ mom(prices, lb, lag=1) 





daily_rets = prices.pct_change() 


# 计算 投资 组 合 收益 

port = port.shift(1).resample(freq, how="'first') 
returns = daily_rets.resample(freq, how=compound) 
port_rets = (port * returns).sum(axis=1) 


return daily_sr(port_rets) * np.sqrt(252 / hold) 























图 11-2: 每 只 股票 的 累计 收 区 


通过 价格 数据 以 及 一 对 参数 组 合 调 用 该 函数 将 
会 得 到 一 个 标量 值 : 


In [122]: strat_sr(px, 70, 30) 
Out[122]: 0.27421582756800583 


然后 对 参数 网 格 〈 即 多 对 参数 组 合 ) 应 用 
strat_STr 函 数 ， 并 将 结果 保存 在 一 个 defaultdict 中 ， 最 
后 再 将 全 部 结果 放 进 一 个 DataFrame 中 : 


from collections import defaultdict 


lookbacks = range(20, 90, 5) 
holdings = range(20, 90, 5) 
dd = defaultdict(dict) 
for lb in lookbacks: 
for hold in holdings: 
dd[lb][hold] = strat_sr(px, lb, hold) 


ddf = DataFrame(dd ) 
ddf.index.name = 'Holding Period' 
ddf .columns.name = 'Lookback Period' 


为 了 便于 观察 ， 我 们 可 以 将 该 结果 图 形 化 。 下 
面 这 个 函数 会 利用 matplotlib 生 成 一 张 带 有 装饰 物 “ 
0 的 热 图 (heatmap): 





import matplotlib.pyplot as plt 


def heatmap(df, cmap=plt.cm.gray_r): 
fig = plt.figure() 
ax = fig.add_subplot(111) 
axim = ax.imshow(df.values, cmap=cmap, interpolation='near 
ax.set_ xlabel(df.columns.name) 
ax.set_xticks(np.arange(len(df.columns))) 
ax.set_ xticklabels(1list(df.columns)) 
ax.set_ylabel(df.index.name) 
ax.set_yticks(np.arange(len(df.index))) 
ax.set_ yticklabels(1list(df.index)) 
plt.colorbar(axim) 


对 事后 检验 结果 调用 该 函数 ， 就 会 得 到 图 11- 
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In [125]: heatmap(ddf) 








20 25 30 35 40 45 50 55 60 65 70 75 80 85 
Lookback Period 











图 11-3: 动量 策略 各 种 回顾 期 和 持 有 期 的 夏普 比率 
热 图 ( 越 高 越 好 ) 


期 货 是 一 种 无 所 不 在 的 衍生 品 合约 。 它 是 一 种 
在 指定 日 期 交 收 指定 资产 (比如 石油 、 黄 金 或 
FTSE100 指 数 的 股份 ) 的 约定 。 在 实践 中 ， 由 于 期 
货 合 约 具 有 限时 性 ， 对 股票、 货币 、 商 品 、 债 券 
以 及 其 他 资产 类 ) 期 货 合约 的 建 模 和 交易 是 很 复杂 
的 。 例 如 ， 对 于 某 种 期 货 〈( 比 如 银 或 铜 期 货 ) ， 在 
给 定时 间 点 ， 可 能 有 多 个 到 期 时 间 不 同 的 合约 被 交 
易 。 一 般 来 说 ， 下 一 个 期 满 的 期 货 合 约 〈 即 近期 合 
将 是 最 具 流 动 性 的 《成 交 量 最 高 和 买卖 差价 最 
攻 








通过 一 个 表示 伪 亏 《始终 持 有 近期 合约 ) 的 连 
续 的 收益 指数 即 可 轻松 实现 建 模 和 了 预测。 从 一 份 到 
期 合约 过 洲 到 下 一 期 “或 更 远 的 ) 合约 称 为 转 仓 。 
通过 单个 期 货 合 约 数据 构建 连续 序列 并 不 简单 ， 而 
且 一 般 都 需要 深入 了 解 市 场 以 及 交易 方面 的 知识 才 
行 。 例 如 ， 你 该 何 时 以 及 如 何 快速 卖 出 到 期 合约 并 
0 0 
王 o 

首先 ， 我 用 SPY 区 易 所 交易 基金 的 部 分 价格 作 
为 标准 普尔 500 指 数 的 代理 : 

In [127]: import pandas.io.data as web 


# 标准 普尔 500 指 数 的 近似 价格 
In [128]: px = web.get_data yahoo('SPY')['Adj Close'] * 10 


In [129]: px 


Out[129]: 

Date 

2011-08-01 1261.0 
2011-08-02 1228.8 
2011-08-03 1235.5 
2012-07-25 1339 .6 
2012-07-26 1361 .7 
2012-07-27 1386 .8 


Name: Adj Close, Length: 251 


现在 ， 稍 微 做 一 些 设 置 。 我 在 一 个 Series 中 放 
了 两 份 标准 普尔 500 指 数 期 货 合 约 及 其 到 期 日 期 : 


from datetime import datetime 
expiry = {'ESU2': datetime(2012, 9, 21), 


'ESZ2': datetime(2012, 12, 21)} 
expiry = Series(expiry).order() 


YY 


expiry 现 在 应 该 是 这 个 样子 的 : 





In [131]: expiry 


Out[131]: 
ESU2 2012-09-21 00:00:00 
ESZ2 2012-12-21 00:00:00 





然后 ， 我 用 Yahool!Finance 的 价格 以 及 一 个 随机 
漫步 和 一 些 噪声 来 模拟 这 两 份 合 约 未 来 的 走势 : 


np.random.seed(12347 ) 

N = 200 

walk = (np.random.randint(0, 200, size=N) - 100) * 0.25 
perturb = (np.random.randint(0, 20, size=N) - 10) * 0.25 
walk = walk.cumsum() 


rng = pd.date range(px.index[0], periods=len(px) + N, freq="'B' 
near = np.concatenate([px.values, px.values[-1] + walk]) 

far = np.concatenate( [px.values, px.values[-1|] + walk + pertur 
prices = DataFrame({'ESU2': near, 'ESZ2': far}, index=rng) 


YY 


这 样 ，prices 就 有 了 关于 这 两 个 合约 的 时 间 序 
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In [133]: prices.tail() 
Out[133]: 


2013-04-16 1416.05 1417.80 
2013-04-17 1402.30 1404.55 
2013-04-18 1410.30 1412.05 
2013-04-19 1426.80 1426.05 
2013-04-22 1406.80 1404.55 


将 多 个 时 间 序 列 合并 为 单个 连续 友 列 的 一 个 办 


法 是 构造 一 个 加 权 和 挺 阵 。 活 动 合 约 的 权重 应 该 设 为 
1， 和 直到 期 满 为 止 。 在 那个 时 候 ， 你 必须 决定 一 个 
转 仓 约定 。 下 面 这 个 函数 可 以 计算 一 个 加 权 和 矩阵 
《权重 根据 到 期 前 的 期 数 减 少 而 线性 桶 减 ) : 
def get_roll weights(start, expiry, items, roll periods=5): | 
# Start ; 用 于 计算 加 权 和 矩阵 的 第 一 天 


# expiry : 由 “合约 代码 -> 到 期 日 期 "组 成 的 序列 
# items :; 一 组 合约 名 称 


























dates = pd.date_range(start, expiry[-1], freq="'B') 
weights = DataFrame(np.zeros((len(dates), len(items))), 
index=dates, columns=items) 


prev_date = weights.index[0] 
for i, (item, ex_date) in enumerate(expiry.iteritems()): 
if i < len(expiry) - 1: 
weights.ix[prev_date:ex_date - pd.offsets.BDay(), 
roll_rng = pd.date_range(end=ex_date - pd.offsets. 
periods=roll periods + 1, 


decay_weights = np.linspace(0, 1, roll periods + 1 

weights.ix[roll rng, item] = 1 - decay weights 

weights.ix[roll_ rng, expiry.index[i + 1]] = decay_ 
else: 

weights.ix[prev_date:, item] = 1 


prev_date = ex_date 
return weights 


快 到 ESU2 到 期 日 的 那 几 天 的 权重 如 下 所 示 : 


In [135]: weights = get_roll weights('6/1/2012', expiry, price 


In [136]: weights.ix['2012-09-12':'2012-09-21'] 
Out[136]: 


ESU2 ESZ2 
2012-09-12 1.0 0.0 
2012-09-13 1.0 0.0 
2012-09-14 0.8 0.2 


2012-09-17 0.6 0 .4 
2012-09-18 0 .4 0.6 
2012-09-19 0.2 0.8 
2012-09-20 0.0 1.0 

0.0 1.0 


2012-09-21 


最 后 ， 转 仓 期 货 收 荔 束 是 合约 收益 的 加 权 和 : 


In [137]: rolled_returns = (prices.pct_change() * weights).sunr 


移动 相关 系数 与 线性 回归 


动态 模型 在 金融 建 模 工作 中 扮演 着 重要 的 角 
色 ， 因 为 它们 可 用 于 模拟 历史 时 期 中 的 交易 决策。 
移动 帘 口 和 指数 加 权时 间 序 列 函 数 束 是 用 于 处 理 动 
态 模型 的 工具 。 


相关 系数 是 观 穴 两 个 资产 时 间 序 列 的 变化 的 协 
动 性 的 一 种 手段 。pandas 的 rolling_corr 函 数 可 以 根 
据 两 个 收益 序列 计算 出 移动 窗口 相关 系数 。 首 先 ， 
我 从 Yahoo!Finance 加 载 一 些 价格 序列 ， 并 计算 每 日 
收 茶座 : 


aapl = web.get data yahoo('AAPL', '2000-01-01')['Adj Close'| 
msft = web.get_ data yahoo( 'MSFT', '2000-01-01')['Adj Close'] 











aapl_rets = aapl.pct_change() 
msft_rets = msft.pct_change() 


然后 ， 我 计算 一 年 期 移动 相关 系数 并 绘制 图 表 
(如 图 11-4 所 示 ) : 


两 个 资产 之 间 的 相关 系数 存在 一 个 问题 ， 即 它 
不 能 捕获 波动 性 靶 异 。 最 小 二 乘 回 归 提 供 了 为 一 种 
对 一 个 变量 与 一 个 或 多 个 其 他 预测 变量 之 间 动 态 关 
系 的 建 模 办 法 。 


In [142]: model = pd.ols(y=aapl_rets, x={'MSFT': msft_rets}, ™ 





In [143]: model.beta 

Out[143]: 

<class 'pandas.core.frame.DataFrame'> 

DatetimeIndex: 2913 entries, 2000-12-28 00:00:00 to 2012-07-27 
Data columns: 

MSFT 2913 non-null values 

intercept 2913 non-null values 

dtypes: float64(2) 


In [144]: model.beta[ 'MSFT'] .plot() 
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图 11-4: 竺 果 与 微软 的 一 年 期 相关 系数 
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图 11-5: 苹果 对 微软 一 年 期 beta (OLS 回 归 系 数 ) 


pandas 的 ols 函 数 实现 了 议 态 和 动态 (扩展 或 移 
动 窗口 ) 的 最 小 二 乘 回 归 。 有 关 统 计 学 和 计量 经 济 
学 的 复杂 模型 的 更 多 信息 ， 请 参考 statsmodels 项 目 
(http://statsmodels.sourceforge.net) 。 


详 注 6: “次 饰物 ? 融 是 图 例 、 标 题 之 闫 的 “配角 ?元 
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第 12 章 “NumPy 高 级 应 用 
ndarray 对 象 的 内 部 机 理 


NumPy 的 ndarray 拓 做 了 一 种 将 同 质数 据 块 〈 可 
以 是 连续 或 跨越 “ 守 1 的 ， 稍 后 将 详细 讲解 ) 解释 为 
多 维 数组 对 象 的 方式 。 正 如 你 之 前 所 看 到 的 那样 ， 
数据 类 型 (dtype) 决定 了 数据 的 解释 方式 ， 比 如 浮 
点 数 、 整 数 、 布 尔 值 等 。 


ndarray 如 此 强大 的 部 分 原因 是 所 有 数组 对 象 都 
是 数据 块 的 一 个 跨度 视图 (strided view) 。 你 可 能 
想 知 道 数 组 视图 arr[::2,)::-1] 不 复制 任何 数据 的 原因 
是 什么 。 简 单 地 说 ，ndarray 不 只 是 一 块 内 存 和 一 个 
dtype， 它 还 有 跨度 信息 ， 这 使 得 数组 能 以 各 种 步 幅 
(step size) 在 内 存 中 移动 “2?。 更 准确 地 讲 ， 
ndarray 内 部 由 以 下 内 容 组 成 : 


.一 个 指向 数组 〈 一 个 系统 内 存 块 ) 的 指针 。 
.数据 类 型 或 dtype。 


.一 个 表示 数组 形状 〈shape) 的 元 组 ， 例 如 ， 
一 个 10x5 的 数组 ， 其 形状 为 (10,5)。 














In [8]: np.ones((10, 5)).shape 
out[8]: (10, 5) 


:一 个 跨度 元 组 (stride) ， 其 中 的 整数 指 的 是 
为 了 前 进 到 当前 维度 下 一 个 元 素 和 需要“ 跨 过 ”的 字 节 
数 ， 例 如 ， 一 个 典型 的 (C 顺 序 ， 稍 后 将 详细 讲 
解 ) 3x4x5 的 float64 (8 个 字 节 ) 数组 ， 其 跨度 为 
(160,40,8)。 


In [9]: np.ones((3, 4, 5), dtype=np.float64).strides 
Out[9]: (160, 40, 8) 


虽然 NumPy 用 户 很 少 会 对 数组 的 跨度 信息 感 兴 
趣 ， 但 它们 却 是 构建 非 复 制式 数组 视图 的 重要 因 
际 。 路 上 度 其 至 可 以 是 负数 ， 这 样 会 使 数组 在 内 存 中 
后 向 移动 ， 比 如 在 切片 obj[::-1] 或 obj[:;::-1] 中 就 是 这 
样 的 。 


图 12-1 简 单 地 说 明了 ndarray 的 内 部 结构 。 











ndarray 对 象 


图 12-1: NumPy 的 ndarray 对 象 














NumPy 效 据 关 型 体系 


你 可 能 偶尔 需要 检查 数组 中 所 包含 的 是 否 是 整 
数 、 浮 点 数 、 字 符 串 或 Python 对 象 。 因 为 浮 点 数 的 
种 类 很 多 ， 判 断 dtype 是 否 属于 茶 个 大 类 的 工作 非常 
繁琐 。 吉 运 的 是 ，dtype 都 有 一 个 超 类 〈 比 如 
np.integer 和 np.floating) ， 它 们 可 以 跟 np.issubdtype 
鸡 效 结合 使 用 : 


In [10]: ints = np.ones(10, dtype=np.uint16) 











In [11]: floats = np.ones(10, dtype=np.float32) 


In [12]: np.issubdtype(ints.dtype, np.integer) 
Out[12]: True 


In [13]: np.issubdtype(floats.dtype, np.floating) 
Out[13]: True 


调用 dtype 的 mro 方 法 即 可 查看 其 所 有 的 父 类 : 


In [14]: np.float64.mro() 
Out[14]: 

[numpy .float64, 
numpy.floating, 

numpy .inexact, 

numpy .number, 

numpy .generic, 

float, 

object] 





大 部 分 NumPy 用 户 完 全 不 需要 了 解 这 些 知识 ， 
但 是 这 些 知识 偶尔 还 是 能 派 上 用 场 的 。 图 12-2 说 明 


了 dtype 体 系 以 及 父子 类 关系 二 1。 





Ce CE 


EE 











图 12-2: NumPy 的 dtype 体 系 
译注 1: 也 就 是 非 连续 存储 。 
译注 2， 数组 本 身 不 能 移动 ， 这 里 实际 上 说 的 是 指 
针 。 
注 1: 有 些 dtype 的 名 称 后 面 带 有 下 划 线 ， 这 是 为 了 
避免 NumPy 类 型 和 Python 类 型 之 间 的 变量 名 冲突 。 








局 级 数组 操作 


除 花 式 索 引 、 切 片 、 布 尔 条 件 取 子 集 等 操作 之 
外 ， 数 组 的 操作 方式 还 有 很 多 。 虽 然 pandas 中 的 高 
级 函数 可 以 处 理 数据 分 析 工 作 中 的 许多 重型 任务 ， 
0 
据 算法 。 


数组 重 逆 


鉴于 我 们 已 经 学 过 的 有 关 NumPy 数 组 的 知识 ， 
当 你 知道 “无 需 复制 任何 数据 ， 数 组 就 能 从 一 个 形 
状 转 换 为 男 一 个 形状 ”时 应 该 会 感到 有 一 点 吃惊 。 
只 需 问 数组 的 实例 方法 reshape 传 入 一 个 表示 新 形状 
的 元 组 即 可 实现 该 目的 。 假 设 有 一 个 一 维 数组 ， 我 
们 和 希望 将 其 重新 排列 为 一 个 矩阵 : 


In [15]: arr = np.arange(8) 











In [16]: arr 
Out[16]: array([0，1，2，3，4，5，6，7]) 


In [17]: arr.reshape((4, 2)) 
Out [17]: 
array([[90, 1], 


多 维 数 组 也 能 被 重 塑 : 


In [18]: arr.reshape((4, 2)).reshape((2, 4)) 
Out[18]: 
array([[90, 1, 2, 3], 

[4, 5, 6, 71]) 


作为 参数 的 形状 的 其 中 一 维 可 以 是 一 1， 写 表 
示 访 维度 的 大 小 由 数据 本 里 推 凯 而 来 : 





In [19]: arr = np.arange(15) In [20]: arr.reshape((5, - 
Out[20]: 
array([[ 0， 1, 2], 
3, 4, 5], 
[ 6, 7, 8], 
[ 9, 10, 11], 
[12, 13, 14]]) 





由 于 数组 的 shape 属 性 是 一 个 元 组 ， 因 此 它 也 
可 以 被 传 入 reshape: 


In [21]: other _ arr = np.ones((3, 5)) 


In [22]: other_arr.shape 
Out[22]: (3, 5) 
In [23]: arr.reshape(other_arr.shape) 
Out[23]: 
array([[ 0, 1, 2) 3/ 4], 
[ 5, 6, 7, 8, 9], 
[10, 11, 12, 13, 14]]) 


与 reshape 将 一 维 数组 转换 为 多 维 数 组 的 运算 过 
程 相反 的 运算 通常 称 为 局 平 化 (flattening〉 或 散 开 


(raveling) : 








In [24]: arr = np.arange(15).reshape((5, 3)) In [25]: arr 
Out[25] : 


array([[ 0 
3, 
6, 
9, 1 
2 


[ 
[ 
[ 
[ 
[ 1 


12, 


In [26]: arr.ravel() 
Out[26]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 


如 果 没 有 必要 ，ravel 不 会 产生 源 数 据 的 副本 
(下 面 将 详细 介绍 ) 。flatten 方 法 的 行为 类 似 于 
ravel， 只 不 过 它 总 是 返回 数据 的 副本 : 


In [27]: arr.flatten() 
Out[27]: array([ ©0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 


数组 可 以 被 重 塑 或 散 开 为 别 的 顺序 。 这 对 
NumpPy 新 手 来 说 是 一 个 比较 微妙 的 问题 ， 所 以 在 下 
一 小 节 中 我 们 将 专门 讲解 这 个 问题 。 





C 和 Fortran 顺 序 


与 其 他 科学 计算 环境 相反 (如 R 和 
MATLAB) ，NumPy 人 允许 你 更 为 灵活 地 控制 数据 在 
内 存 中 的 布局 。 默 认 情况 下 ，NumPy 数 组 是 按 行 优 
先 顺 序 创建 的 。 在 空间 方面 ， 这 就 意味 着 ， 对 于 一 
个 二 维 数组 ， 每 行 中 的 数据 项 是 被 存放 在 相 邻 内 存 
位 置 上 的 。 另 一 种 顺序 是 列 优先 顺序 ， 它 意味 着 




















(独到 了 吧 ) 每 列 中 的 数据 项 是 被 存放 在 相 邻 闪存 
位 置 上 的 。 


由 于 一 些 历 史 原 因 ， 行 和 列 优先 顺序 又 分 别称 
为 C 和 Fortran 顺 序 。 在 FORTRAN 77 中 (前 非 们 的 
语言 立定 隆 多 部 是 列 仿 移交 


像 reshape 和 reval 这 样 的 函数 ， 都 可 以 接受 一 个 
表示 数组 数据 存放 顺序 的 order 参 数 。 一 般 可 以 
是 'C' 或 F' (还 有 'A' 和 'K' 等 不 常用 的 选项 ， 具 体 请 参 
考 NumPy 的 文档 ) 。 图 12-3 对 此 进行 了 说 明 。 


In [28]: arr = np.arange(12).reshape((3, 4)) 














In [29]: arr 
Out[29]: 
array([[ 0, 1, 2, 3], 
[ 4, 5, 6, 7], 
[ 8, 9, 10, 11]]) 
In [30]: 
Out[30]: 


arr.ravel() 
array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 


In [31]: 
Out[31]: 


arr.ravel('F') 
array([ 0, 4, 8, 1, 5, 9, 2, 6, 10, 3, 7, 11 


二 维 或 更 高 维 数 组 的 重 塑 过 程 比较 令 人 费解 。 








C 和 Fortran 顺 序 的 关键 区 别 驶 是 


维度 的 行进 顺序 : 





:C/ 行 优先 顺序 : 
轴 1 会 先 于 轴 0 被 处 理 ) 。 


先 经 过 更 高 的 维度 《〈 例 如， 


Fortran/ 列 优先 顺序 : 后 经 过 更 高 的 维度 〈 例 
如 ， 轴 0 会 先 于 轴 1 补 处理 ) 。 


数组 的 合并 和 拆 分 
numpy.concatenate 可 以 按 指 定 轴 将 一 个 由 数组 


组 成 的 序列 “如 元 组 、 列 表 等 ) 连接 到 一 起 。 


In [32]: arr1 = np,array([[1，2，3]1，[4，5，6]]) 
In [33]: arr2 = np.array([[7, 8, 9], [10, 11, 12]]) 


In [34]: np.concatenate([arri, arr2], axis=0) 


Out[34] : 
array([[ 1, 2, 3], 
[ 4, 5, 6], 
[ 7， 8, 9], 
[10, 11, 12]]) 
In [35]: np.concatenate([arri, arr2], axis=1) 
Out[35]: 
array([ / 2, 3, 7, 8, 9] 


[ 1 , 
[ 4, 5, 6, 10, 11, 12]]) 





四面 碧 面 回回 加 丁丁 再 丁丁 


arr.reshape((4, 3), order=?) 


Fortran 顺序 ( 列 优先 ) 














order="C." order="F" 
图 12-3: 按 C《〈 行 优先 ) 或 Fortran 〈 列 优先 ) 顺序 
进行 重 塑 


对 于 第 见 的 连接 操作 ，NumPy 提 供 了 一 些 比较 
方便 的 方法 〈 如 vstack 和 hstack) 。 因 此 ， 上 面 的 运 
算 还 可 以 表达 为 : 


In [36]: np.vstack((arri, arr2)) In [37]: np.hstack((arri, 

Out[36]: Out[37]: 

array([[ 1, 2, 3], array([[ 1, 2, 3, 7, 8 
[ 4, 5, 6], [ 4, 5, 6, 10, 11 
[ 7, 8, 9], 


[10, 11, 12]]) 
与 此 相反 ，split 用 于 将 一 个 数组 治 指定 轴 拆 分 
为 多 个 数组 : 
In [38]: from numpy.random import randn 


In [39]: arr = randn(5, 2) In [40]: arr 


Out[40]: 


array([[ 0.1689, 0.3287], 
[ 0.4703, 0.8989], 
[ 0.1535, 0.0243], 
[-0.2832, 1.1536], 
[ 0.2707， 0.8075]]) 
In [41]: first, second, third = np.split(arr, [1, 3]) 
In [42]: first 
Out[42]: array([[ 0.1689, 0.3287]]) 
In [43]: second In [44]: third 
Out[43]: Out[44]: 
array([[ 0.4703, 0.89891], array([[-0.2832, 1.1536], 
[ 90.1535, 0.0243]]) [ 0.2707, 0.8075]] 


表 12-1 中 列 出 了 所 有 关于 数组 连接 和 拆 分 的 函 


数 ， 其 中 有 些 





供 的 。 
表 12-1: 数组 连接 函数 
concatenate 

vstack、 row_stack 
hstack 
column_stack 
dstack 

split 

hsplit、 vsplit、dsplit 


是 专 门 为 了 方便 癌 见 的 连接 运算 而 提 


说 明 
一 般 化 的 连接 ， 沿 一 条 轴 连 接 一 
人 ( 沿 轴 0) 
以 面向 列 的 方式 对 数组 进行 堆 晋 〈 沿 轴 1) 
类 似 于 hstack， 但 是 会 先 将 一 维 数组 转换 为 二 维 列 向 量 


组 数组 


以 面向 “深度 ”的 方式 对 数组 进行 堆 释 ( 沿 轴 2) 
沿 指定 轴 在 指定 的 位 置 拆 分 数组 
split 的 便捷 化 函数 ， 分 别 沿 轴 0、 轴 1、 轴 2 进行 拆 分 





: 这 里 面 偿 有 拆 分 男 


堆 登 辅助 类 ; 


数 。 


r 和 c 


NumPy 命 名 空间 中 有 两 个 特殊 的 对 象 
c， 它 们 可 以 使 数组 的 堆 琶 操作 更 为 简洁 : 


r 和 








In [45]: arr = np.arange(6) 
In [46]: arri = arr.reshape((3, 2)) 


In [47]: arr2 = randn(3, 2) 


In [48]: np.r_[arri, arr2] In [49]: np.c_[np,r_ [arrl， 

Out[48 ] : Out[49]: 

array([[ 9 ， 1. ] ， array([[ 9 ， 1 , 
[ 2 / 3. ]， [ 2 / 3 / 
[ 4. ， 5， ] ， [ 4. ， 5， 
[ 0.7258, -1.5325], [ 0.7258, -1.5325, 
[-0.4696, -0.2127], [-0.4696, -0.2127, 
[-0.1072, 1.2871]]) [-0.1072, 1.2871, 


此 外 ， 它 还 可 以 将 切片 翻 详 为 数组 : 


In [50]: np.c_[1:6, -10:-5] 


Out[50]: 

array([[ 1, -10], 
[ 2, -9], 
[ 3, -8], 
[ 4, -7], 
[ 5, -6]]) 





r_ 和 c 的 具体 功能 请 参考 其 文档 。 
元 系 的 重复 操作 : tile 和 repeat 
注意 : 跟 其 他 流行 的 数组 编程 语言 (如 


MATLAB) 不 同 ，NumPy 中 很 少 需要 对 数组 进行 重 
复 (replicate) “4。 这 主要 是 因为 广播 


(broadcasting， 我 们 将 在 下 一 节 中 讲解 该 技术 ) 能 
更 好 地 满足 该 需求 。 

对 数组 进行 重复 以 产生 更 大 数组 的 工具 主要 是 
repeat 和 tile 这 两 个 函数 。repeat 会 将 数组 中 的 各 个 元 
素 重 复 一 定 次 数 ， 从 而 产生 一 个 更 大 的 数组 : 


In [51]: arr = np.arange(3) 








In [52]: arr.repeat(3) 
out[52]: array([0, 0, 0, 1, 1, 1, 2, 2, 2]) 


默认 情况 下 ， 如 末 传 入 的 是 一 个 整数 ， 则 各 元 
素 就 都 会 重复 那么 多 次 。 如 果 传 入 的 是 一 组 整数 ， 
则 各 元 素 就 可 以 重复 不 同 的 次 数 : 


In [53]: arr.repeat([2, 3, 4]) 
Out[53]: array([0, 0, 1, 1, 1, 2, 2, 2, 2]) 


对 于 多 维 数 组 ， 还 可 以 让 它们 的 元 系 沿 指定 轴 
重复 。 


In [54]: arr = randn(2, 2) 


In [55]: arr 
Out[55]: 
array([[ 0.7157, -0.6387], 
[ 0.3626, 0.849 ]]) 
In [56]: arr.repeat(2, axis=0) 
Out[56]: 
array([[ 0.7157, -0.6387], 
[ 0.7157, -0.6387], 
[ 0.3626, 0.849 ]， 
[ 0.3626， 0.849 ]]) 


注意 ， 如 条 没有 设置 轴 问 ， 则 数组 会 家 届 平 
化 ， 这 可 能 不 会 是 你 想 要 的 结果 。 同 样 ， 在 对 多 维 
进行 重复 时 ， 也 可 以 传 入 一 组 整数 ， 这 样 就 会 使 各 
切片 重 复 不 同 的 次 数 : 


In [57]: arr.repeat([2, 3], axis=0) 





Out[57]: 

array([[ 0.7157, -0.6387], 
[ 0.7157, -0.6387], 
[ 0.3626, 0.849 ]， 
[ 90.3626, 0.849 ]， 
[ 0.3626， 0.849 ]]) 


In [58]: arr.repeat([2, 3], axis=1) 

Out[58]: 

array([[ 0.7157, 0.7157, -0.6387, -0.6387, -0.6387], 
[ 0.3626, 0.3626, 0.849 ， 0.849 ， 0.849 ]]) 


tile 的 功能 是 治 指定 轴 癌 推倒 数组 的 副本 。 你 
可 以 形象 地 将 其 想象 成 “ 铺 瓷 砖 ”: 
In [59]: arr 
Out[59] : 


array([[ 0.7157, -0.6387], 
[ 0.3626， 0.849 ]]) 


In [60]: np.tile(arr, 2) 

Out[60]: 

array([[ 0.7157, -0.6387, 0.7157, -0.6387], 
[ 0.3626, 0.849 ， 0.3626, 0.849 ]]) 


第 二 个 参数 是 瓷砖 的 数量 。 对 于 标量 ， 瓷 破 是 
水 平 铺设 的 ， 而 不 是 垂直 铺设 。 它 可 以 是 一 个 表 
示 “ 铺 设 ” 布 局 的 元 组 : 


In [61]: arr 











Out[61] : 
array([[ 0.7157, -0.6387], 
[ 0.3626, 0.849]]) 


In [62]: np.tile(arr, (2, 1)) 
Out[62]: 
array([[ 0.7157, -0.6387], 

[ 0.3626, 0.8491], 

[ 0.7157, -0.6387], 

[ 0.3626, 0.849 ]]) 


In [63]: np.tile(arr, (3, 


Out[63]: 
array([[ 


[ 
[ 
[ 
[ 
[ 


化 式 索 引 的 等 价 函 数 : take 和 put 


在 第 4 草 中 我 们 讲 过 ， 获 取 和 设置 数组 子 集 的 





0 
0 
0 . 
0 . 
0 
0 


一 个 办 法 是 通过 整数 数组 使 用 伦 式 索引 : 


In [64]: arr = np.arange(10) * 100 


In [65]: inds = [7, 1, 2, 6] 


ndarray 有 两 个 方法 专门 用 于 获取 和 设置 单个 轴 


问 上 的 选区 : 


In [67]: arr.take(inds) 


Out[67]: array([700, 100, 200, 600]) 


In [68]: arr.put(inds, 42) 


In [69]: arr 


Out[69]: array([ 0, 42, 42, 300, 


In [70]: arr.put(inds, [40, 41, 42, 


In [71]: arr 


-0.6387, 


,849 


了 


-0.6387， 


,849 


了 


-0.6387, 


0 
0 
0 
0 
0 
0 


,849 


In [66]: arr[inds] 
Out[66]: array([700, 16 


400, 500, 


43]) 


Out[71]: array([ 0， 41, 42, 300, 400, 500, 


42, 


43, 


42, 800, 


40, 800, 


了 


O 


4 


O 


要 在 其 他 轴 上 使 用 take， 只 需 传 入 axis 关 键 字 
R 可 : 


In [72]: inds = [2, 0, 2, 1] 
In [73]: arr = randn(2, 4) 
In [74]: arr 

Out[74]: 


array([[-0.8237, 2.6047, -0.4578, -1. 
[ 2.3198, -1.0792, 0.518 , 0.2527]]) 


In [75]: arr.take(inds, axis=1) 

Out[75]: 

array([[-0.4578, -0.8237, -0.4578, 2.6047], 
[ 0.518 , 2.3198, 0.518 , -1.0792]]) 


put 个 接受 axis 参 数 ， 它 只 会 在 数组 的 局 平 化 版 
本 (一 维 ，C 顺 序 ) 上 进行 夫 引 这 一 点 今 后 应 该 
是 会 有 所 改善 的 ) 。 因 此 ， 在 需要 用 其 他 轴 癌 的 索 
引 设 置 元 素 时 ， 最 好 还 十 使 用 花 式 索 引 。 


注意 : 直到 编写 本 书 时 为 止 ，take 和 put 函 数 的 
性 能 通常 要 比 花 式 索 引 好 得 多 。 我 认为 这 是 一 
个 "bug"，NumPy 中 应 该 有 什么 东西 需要 修正 才 
对 。 当 你 用 整数 数组 选取 大 数组 的 子 集 时 ， 最 好 还 


是 注意 一 下 这 个 问题 : 








In [76]: arr = randn(1000, 50) 


# 500 行 随机 样本 
In [77]: inds = np.random.permutation(1000)[ :500] 





In [78]: %timeit arr[inds] 
1000 loops, best of 3: 356 us per loop 


In [79]: %timeit arr.take(inds, axis=0) 
10000 loops, best of 3: 34 us per loop 


译注 4: 实在 找 不 到 更 好 的 词 了 ， 所 以 这 里 还 是 应 
该 解释 一 下 。 虽 然 都 是 “重复 ”， 但 可 以 这 样 理解 : 
duplicate 是 结果 ，replicate 是 造成 duplicate 的 过 程 。 





广播 

广播 broadcasting) 指 的 是 不 同形 状 的 数组 之 
间 的 算术 运算 的 执行 方式 。 它 是 一 种 非常 强大 的 功 
能 ， 但 也 容易 令 人 误解 ， 即 使 是 经 验 丰 宣 的 老手 也 
是 如 此 。 将 标量 值 跟 数 组 合并 时 束 会 友 生 最 简单 的 
广播 : 


In [80]: arr = np.arange(5) 


In [81]: arr In [82]: arr * 4 
Out[81]: array([0, 1, 2, 3, 4]) Out[82]: array([ ©0, 4， 


这 里 我 们 说 : 在 这 个 乘法 运算 中 ， 标 量 值 4 被 
广播 到 了 其 他 所 有 的 元 素 上 。 

再 来 看 一 个 例子 ， 我 们 可 以 通过 减 去 列 平 均值 
的 方式 对 数组 的 每 一 列 进行 距 平 化 处 理 。 这 个 问题 
解决 起 来 非常 简单 : 


In [83]: arr = randn(4, 3) 








In [84]: arr.mean(0) 
Out[84]: array([ 0.1321, 0.552 ， 0.8571]) 


In [85]: demeaned = arr - arr.mean(0) 


In [86]: demeaned In [87]: demeaned ,rr 
Out [86 1] : Out[87]: array([ 0. 
array([[ 0.1718, -0.1972, -1.3669], 

[ -0.1292, 1.6529, -0.3429], 

[ -0.2891, -0.0435, 1.2322], 


[ 0.2465，-1.4122， 0.4776]]) 


图 12-4 形 象 地 展示 了 该 过 程 。 用 广播 的 方式 对 
行进 行距 平 化 处 理会 和 微 麻 烦 一 些 。 笠 运 的 是 ， 只 
要 这 循 一 定 的 规则 ， 低 维度 的 值 是 可 以 被 广播 到 数 
组 的 任意 维度 的 《比如 对 二 维 数组 各 列 减 去 行 平 均 
值 )。 于 古 束 得 到 了 : 











(4, 3) (3, ) (4, 3) 


wal “ET 


图 12-4: 一 维 数组 在 轴 0 上 的 广播 
广播 的 原则 


如 果 两 个 数组 的 后 缘 维 度 (trailing dimension， 即 从 末尾 开始 算 起 的 维度 ) 的 轴 长 
度 相 符 或 其 中 一 方 的 长 度 为 1， 则 认为 它们 是 广播 兼容 的 。 广 播 会 在 缺失 和 (或 ) 
长 度 为 1 的 维度 上 进行 。 




















虽然 我 是 一 名 经 验 丰 富 的 NumPy 老 手 ， 但 经 名 
还 是 得 停 下 来 男 张 图 并 想 想 广播 的 原则 。 再 来 看 一 
下 最 后 那个 例子 ， 假 设 你 希望 对 各 行 减 去 那个 平均 
值 。 由 于 arr.mean(0) 的 长 上 度 为 3， 所 以 它 可 以 在 0 轴 
同上 进行 广播 : 因为 arr 的 后 缘 维 度 是 3， 所 以 它们 











征 兼 容 的 。 根 据 该 原则 ， 要 在 1 轴 癌 上 做 减法 《 即 
各 行 减 去 行 平 均值 ) ， 较 小 的 那个 数组 的 形状 必须 


是 (4,1): 


In [88]: 
Out[88]: 
array([[ 
[ 
[ 
[ 


In [89]: 


In [91]: 


In [92]: 
Out [921]: 


arr 

0.3039, 0.3548, -0.5097], 

0.0029, 2.2049, 0.5142], 

-0.1571, 0.5085, 2.0893], 

0.3786, -0.8602, 1.3347]]) 

row_means = arr.mean(1) In [90]: 
Out[90]: 
array([[ 


demeaned = arr - row_means,reshape((4， 
demeaned .mean(1) 


array([ 0., 0., 0., 0.1]1) 


row_means ,resh 


0.0496], 
0.9073], 
0.8136], 
0.2844]]) 


1)) 


你 的 头 还 没 炸 吧 ? 图 12-5 说 明了 该 运算 的 过 




















图 12-5: 二 维 数 组 在 轴 1 上 的 广播 


图 12-6 展 示 了 夯 外 一 种 情况 ， 这 次 是 在 一 个 三 
维 数组 上 沿 0 轴 间 加 上 一 个 二 维 数 组 。 























图 12-6: 三 维 数组 在 轴 0 上 的 广播 
沿 其 他 轴 回 广播 


局 维度 数组 的 广播 似乎 更 难以 理解 ， 而 实际 上 
它 也 古 芝 循 广播 原则 的 。 如 果 不 然 ， 你 束 会 得 到 下 
面 这 样 一 个 错误 : 


In [93]: arr - arr.mean(1) 


ValueError Traceback (most rece 
<ipython-input-93-7b87b85a20b2> in <module>( 

----> 1 arr - arr.mean(1) 

ValueError: operands could not be broadcast together with shar 


人 们 经 负 需 要 通过 算术 运算 过 程 将 较 低 维度 的 
数组 在 除 0 轴 以 外 的 其 他 轴 同 上 广播 。 根 据 广播 的 
原则 ， 较 小 数组 的 “三 播 维 ”必须 为 1。 在 上 面 那 个 
行距 平 化 的 例子 中 ， 这 就 意味 着 要 将 行 平 均值 的 形 
状 变 成 (4,1) 而 不 是 (4,): 

In [94]: arr - arr.mean(1).reshape((4, 1)) 

Out[941]: 

array([[ 0.2542, 0.3051, -0.55941], 
[ -0.9044, 1.2976, -0.3931], 


[ -0.9707, -0.3051, 1.2757], 
[ 0.0942, -1.1446, 1.0503]]) 


对 于 三 维 的 情况 ， 在 三 维 中 的 任何 一 维 上 广播 
其 实 也 就 是 将 数据 重 塑 为 兼容 的 形状 而 已 。 图 12-7 
说 明了 要 在 三 维 数 组 各 维度 上 广播 的 形状 需求 。 








整个 数组 的 形状 : 68，5，3) 币 驴 C8 5, 15 





轴 @: C5，3) 轴 1: (8，1，37 











图 12-7: 能 在 该 三 维 数组 上 广播 的 二 维 数组 的 形状 


于 是 就 有 了 一 个 非常 普 过 的 问题 〈 尤 其 是 在 通 
用 算法 中 ) ， 即 专门 为 了 广播 而 添加 一 个 长 度 为 1 
的 新 轴 。 虽 然 reshape 是 一 个 办 法 ， 但 插入 轴 需 要 构 





造 一 个 表示 新 形状 的 元 组 。 这 是 一 个 很 郁闷 的 过 
程 。 因 此 ，NumPy 数 组 提供 了 一 种 通过 索引 机 制 插 
入 轴 的 特殊 语法 。 下 面 这 段 代 码 通过 特殊 的 
np.newaxis 属 性 以 及 “全 ”切片 来 插入 新 轴 : 


In [95]: arr = np.zeros((4, 4)) 
In [96]: arr 3d = arr[:, np.newaxis, :|] 
In [97]: arr_3d.shape 
Out[97]: (4, 1, 4) 
In [98]: arr_ 1d = np.random.normal(size=3) 
In [99]: arr_i1id[:, np.newaxis] In [100]: arr_ 1d[np.newax 
Out [991] : Out[100]: array([[-0.3899 
array([[-0.3899], 
[ 0.396 ]， 
[ -0.1852]]) 


因此 ， 如 果 我 们 有 一 个 三 维 数 组 ， 并 希望 对 轴 
2 进行 距 平 化 ， 那 么 只 需要 编写 下 和 面 这 样 的 代码 就 


可 以 了 : 


In [101]: 
In [102]: 


In [103]: 
Out[103]: 


arr = randn(3, 4, 5) 
depth_means = arr.mean(2) 


depth_means 


array([[ 0.1097, 0.3118, -0.5473, 0.2663], 
[ 0.1747, 0.1379, 0.1146, -0.,4224], 
[ 0.0217, 0.3686, -0.0468, 1.3026]]) 


In [104]: demeaned = arr - depth_means[:，:，np.newaxis] 


In [105]: demeaned .mean(2) 
Out[105] : 
array([[ 0., 0., -0., 0.1], 

[ 0., -0., -0., 0.1], 

[ -0., -0., 0., 0.1]) 


也 许 你 会 对 此 感到 非 第 困惑 。 不 用 担心 ， 只 要 
多 动手 ， 很 快 束 能 搞 明 日! 


有 些 读者 可 能 会 想 ， 在 对 指定 轴 进 行距 平 化 
时 ， 有 没有 一 种 既 通 用 又 不 牺牲 性 能 的 方法 呢 ? 实 
际 上 是 有 的 ， 但 需要 一 些 索引 方面 的 技巧 : 


def demean_axis(arr, axis=0): 
means = arr.mean(axis) 

















# 下 面 这 些 一 般 化 的 东西 类 似 于 N 维 的 [:，:，np.newaxis] 
indexer = [slice(None)] * arr.ndim 
indexer[axis] = np.newaxis 

return arr - means[indexer] 


通过 广播 设置 数组 的 值 

算术 运算 所 遵循 的 广播 原则 同样 也 适用 于 通过 
索引 机 制 设置 数组 值 的 操作 。 对 于 最 简单 的 情况 ， 
我 们 可 以 这 样 做 ; 


In [106]: arr = np.zeros((4, 3)) 








In [107]: arr[:] = 5 In [108]: arr 
Out[108] : 


OO OO JI 


~ ~ ~ ~ 


OOJOO OJOI 


:] 
:] 
:] 
:| 


~ ~ ~ ~ 


]) 


再 看 一 个 复 森 后 的 例子 ， 假 设 我 们 想 要 用 一 个 
一 维 数组 来 设置 目标 数组 的 各 列 。 只 要 你 证 形状 兼 
容 束 可 以 了 : 


In [109]: col = np.array([1.28, -0.42, 0.44, 1.6]) 


In [110]: arr[:] = col[:, np.newaxis] In [111]: arr 
Out[111]: 
array([[ 1.28, 
[ -0.42, 
[ 0.44, 
[ 1.6 ， 


In [112]: arr[:2] = [[-1.37], [90.509]] In [113]: arr 
Out [113] : 
array([[-1.37 ， 

[ 


[ 0.44 ， 
[ 1.6 ， 


ufunc 高 级 应 用 


里 然 许 多 NumPy 用 户 只 会 用 到 通 用 函数 所 提供 
的 快速 的 元 率 级 运算 ， 但 通用 函数 实际 上 还 有 一 些 
局 级 用 法 能 使 我 们 丢 开 循环 而 编写 出 更 为 简洁 的 代 
码 。 








ufunc 实 例 方法 


NumpPy 的 各 个 二 元 ufunc 都 有 一 些 用 于 执行 特 
定 矢 量化 运算 的 特殊 方法 。 表 12-2 汇 总 了 这 些 方 
法 ， 下 面 我 将 通过 几 个 具体 的 例子 对 它们 进行 说 
明 。 


reduce 接 受 一 个 数组 参数 ， 并 通过 一 系列 的 二 
元 运算 对 其 值 进行 聚合 〈 可 指明 轴 同 ) 。 例 如 ， 我 
们 可 以 用 np.add.reduce 对 数组 中 各 个 元 系 进 行 求 
和 : 


In [114]: arr = np.arange(10) 





In [115]: np.add.reduce(arr) 
Out[115]: 45 


In [116]: arr.sum() 
Out[116]: 45 


起 始 值 取决 于 ufunc (对 于 add 的 情况 ， 就 是 





0) 。 如 果 设 置 了 轴 号 ， 约 徐 运 算 束 会 沿 该 轴 癌 执 
行 。 这 束 使 你 能 用 一 种 比较 简洁 的 方式 得 到 某 些 问 
题 的 答案 。 在 下 面 这 个 例子 中 ， 我 们 用 
np.logical_and 检 查 数 组 各 行 中 的 值 是 否 是 有 序 的 : 


In [118]: arr = randn(5, 5) 














In [119]: arr[::2].sort(1) # 对 部 分 行进 行 排序 


In [120]: arr[:, :-1] < arr[:, 1:] 

Out[120]: 

array([[ True, True, True, Truel], 

False, True, False, Falsel], 

True, True, True, Truel], 

True, False, True, Truel], 

True, True, True, Truel]l], dtype=bool) 


| 


In [121]: np.logical and.reduce(arr[:, :-1] < arr[:, 1:], axis 
Out[121]: array([ True, False, True, False, Truel], dtype=boo 


当然 了 ，logical_and.reduce 跟 all 方 法 是 等 价 
的 。 


accumulate 跟 reduce 的 关系 束 像 cumsum 跟 sum 
的 关系 那样 。 它 产生 一 个 跟 原 数组 大 小 相同 的 中 
间 “ 紧 计 ” 值 数组 : 


In [122]: arr = np.arange(15).reshape((3, 5)) 


In [123]: np.add.accumulate(arr, axis=1) 
Out[123]: 
array([[ 90, 1, 3, 6, 10], 

[ 5, 11, 18, 26, 35], 

[10, 21, 33, 46, 60]]) 


outer 用 于 计算 两 个 数组 的 又 积 : 


In [124]: arr = np,arange(3).repeat([1，2，2]) 


In [125]: arr 
Out[125]: array([0，1，1，2，2]) 


In [126]: np.multiply.outer(arr, np.arange(5)) 


Out[126]: 

array([[0， 0， 0, 0, 0], 
[0, 1, 2, 3, 4], 
[0, 1, 2, 3, 4], 
[0, 2, 4, 6, 8], 
[0, 2, 4, 6, 8]1]) 


outer 输 出 结果 的 维度 是 两 个 输入 数据 的 维度 之 
和 : 


In [127]: result = np.subtract.outer(randn(3, 4), randn(5)) 


In [128]: result.shape 
Out[128]: (3, 4, 5) 


最 后 一 个 方法 reduceat 用 于 计算 “局 部 约 简 ”， 
其 实 束 是 一 个 对 数据 各 切片 进 # 了 汉 合 的 groupby 运 
算 。 虽然 其 灵活 性 不 如 pandas 的 groupby 功 能 ， 但 它 
在 适当 的 情况 下 运算 会 非常 快 。 它 接受 一 组 用 于 指 
示 如 何 对 值 进行 拆 分 和 聚合 的 “ 面 元 边界 ”: 


In [129]: arr = np.arange(10) 








In [130]: np.add.reduceat(arr, [0, 5, 8]) 
Out[130]: array([10, 18, 17]) 


终结 果 是 在 arr[0:5]、arr[5:8] 以 及 arr[8:] 上 执 


行 的 约 简 (本 例 中 就 是 求 和 )〉 。 跟 其 他 方法 一 样 ， 
这 里 也 可 以 传 入 一 个 axis 参 数 : 


In [131]: arr = np.multiply.outer(np.arange(4), np.arange(5)) 
In [132]: arr In [133]: np.add.reduceat(arr, |[ 
Out[132] : Out[133]: 
array([[ 0, 090, 090, 090, 0909], array([[ 0, 0， 9], 
[ 0, 1 2, 3, 4 了 [ 1, 57 4], 
[ 0, 2, 4, 6, 8], [ 2, 190, 8], 
[ 90， 3, 6, 9, 12]]) [ 3, 15, 12]]) 
表 12-2: Ufunc 的 方法 
方法 说 明 
reduce(X) 通过 连续 执行 原始 运算 的 方式 对 值 进行 聚合 


accumulate(X) 聚合 值 ， 保 留 所 有 局 部 聚合 结果 
reduceat(x, bins) “局 部 ” 约 简 (也 就 是 groupby) 。 约 简 数 据 的 各 个 切片 以 产生 聚合 





型 数组 
outer(x, y) 对 x 和 y 中 的 每 对 元 素 应 用 原始 运算 。 结 果 数 组 的 形状 为 x.shape + 
y.shape 
A 
目 定义 ufunc 


有 两 个 工具 可 以 让 你 将 目 定 义 函 数 像 ufunc 那 
样 使 用 。numpy.frompyfunc 接 受 一 个 Python 函数 以 
及 两 个 分 别 表示 输入 输出 参数 数量 的 整数 。 例 如 ， 
下 面 是 一 个 能 够 实现 元 素 级 加 法 的 简单 函数 : 

In Lol def J y): 


In [135]: add_them = np.frompyfunc(add elements, 2, 1) 


In [136]: add_them(np.arange(8), np.arange(8)) 


Out[136]: array([0，2，4，6，8，10，12，14]，dtype=object ) 


用 frompyfunc 创 建 的 函数 总 是 返回 Python 对 象 
数组 ， 这 一 点 很 不 方便 。 和 对 和 运 的 是 ， 还 有 另 一 个 办 
法 ， 即 numpy.vectorize。 虽 然 没 有 frompyfunc 那 么 
强大 ， 但 它 在 类 型 推断 方面 要 更 乔 能 一 些 : 








In [137]: add_them = np.vectorize(add elements, otypes=[np.flo 


In [138]: add_them(np.arange(8), np.arange(8)) 
Out[138]: array([ 0., 2 4,， (SR 8 ， 


虽然 这 两 个 函数 提供 了 一 种 创建 ufunc 型 函数 
的 手段 ， 但 它们 非常 慢 ， 因 为 它们 在 计算 每 个 元 末 
时 都 要 执行 一 次 Python 函 数 调用 ， 这 自然 会 比 
NumpPy 目 带 的 基于 C 的 ufunc 慢 很 多 : 





In [139]: arr = randn(10000) 


In [140]: %timeit add_them(arr，arr) 
100 loops, best of 3: 2.12 ms per loop 


In [141]: %timeit np.add(arr, arr) 
100000 loops, best of 3: 11.6 us per loop 


为 此 ，Python 科 学 计算 社区 正在 开 友 一 些 项 
目 ， 力 求 使 目 定 义 ufunc 的 性 能 接近 内 置 的 那些 。 











结构 化 和 记录 式 数 组 


你 可 能 已 经 注意 到 了 ， 到 目前 为 止 我 们 所 讨论 
的 ndarray 都 是 一 种 同 质 数据 容器 ， 也 就 是 说 ， 在 它 
所 表示 的 内 存 块 中 ， 各 元 素 占 用 的 字 节 数 相 同 〈 具 
体 根 据 dtype 而 定 ) 。 从 表面 上 看 ， 它 似乎 不 能 用 于 
表示 异 质 或 表格 型 的 数据 。 结 构 化 数组 是 一 种 特殊 
的 ndarray， 其 中 的 各 个 元 素 可 以 被 看 做 C 语 言 中 的 
结构 体 (struct， 这 束 是 “结构 化 ”的 由 来 )》 或 SQL 表 
中 带 有 多 个 命名 字段 的 行 : 


In [142]: dtype = [('x', np.float64), ('y', np.int32)] 




















In [143]: sarr = np.array([(1.5, 6), (np.pi, -2)], dtype=dtype 


In [144]: sarr 

Out[144]: 

array([(1.5，6)，(3.141592653589793， -2)]， 
dtype=[('x', <f8 )，( yy， '<i4')]) 





定义 结构 化 dtype (请 参考 NumPy 的 在 线 文 
档 ) 的 方式 有 很 多 。 最 典型 的 办 法 是 元 组 列表 ， 各 
元 组 的 格式 为 (field_name,field_data_type)。 这 样 ， 
数组 的 元 素 束 成 了 元 组 式 的 对 象 ， 该 对象 中 各 个 元 
系 可 以 像 字 典 那 样 进行 访问 : 





In [145]: sarr[0] 
Out[145]: (1.5, 6) 


In [146]: sarr[o]['y'] 


Out[146]: 6 


字段 名 保存 在 dtype.names 属 性 中 。 在 访问 结构 
化 数组 的 某 个 字段 时 ， 返 回 的 是 该 数据 的 视图 ， 所 
以 不 会 友 生 数据 复制 : 


In [147]: sarr['x'] 
Out[147]: array([ 1.5 ) 3.1416]) 


胎 套 dtype 和 多 维 字 鼎 


在 定义 结构 化 dtype 时 ， 你 可 以 再 设置 一 个 形状 
(可 以 是 一 个 上 整数， 也 可 以 是 一 个 元 组 ) : 


In [148]: dtype = [('x', np.int64, 3), ('y', np.int32)] 














In [149]: arr = np.zeros(4, dtype=dtype) 
In [150]: arr 
Out[150]: 


array([([9， 0， 0], 0)， ([0， 0， 0]， 0)， ([9, 0, 0], 0), ([9, 0, 
dtype=[('x', '<i8', (3,)), ('y', '<i4')]) 


在 这 种 情况 下 ， 各 个 记录 的 x 字段 所 表示 的 古 
一 个 长 度 为 3 的 数组 : 


In [151]: arr[0]['x'"] 
Out[151]: array([0, ©0, 0]) 


访问 arr[x] 即 可 得 到 一 个 二 维 数 组 ， 而 不 是 前 
面 那 个 例子 中 的 一 维 数组 : 


In [152]: arr['x'] 
Out[152]: 


array([[90, 0, 9], 
[0, 0, 9], 
[0, 0, 9], 
[0, 909, 0]]) 





这 就 使 我 们 能 用 单个 数组 的 内 存 块 存放 复杂 的 
肉 套 结构 。 既 然 dtype 可 以 想 怎 么 复杂 就 怎么 复杂 ， 
那 为 什么 不 试 试 黄 套 dtype 呢 ?下 和 面 是 一 个 简单 的 例 
了: 


In [153]: dtype = [('x', [('a'’, fa) ('b', 'f4')]), ('y', np 
In [154]: data = np.array([((1, 2), 5), ((3, 4), 6)], dtype=dt 
In [155]: data['x'] 
Out[155] : 
array([(1.0，2.0)，(3.0，4.0)]， 

dtype=[('a', '<f8'), ('b', '<f4')]) 


In [156]: data['y'] 
Out[156]: array([5, 6], dtype=int32) 


In [157]: data['x']['a'] 
Out[157]: array([ 1., 3.]) 


不 难看 出 ， 可 变形 状 的 字段 和 租 尽 记录 是 一 种 
非常 强大 的 功能 。 与 此 相 比 ，pandas 的 DataFrame 并 
不 直接 文 持 该 功能 ， 但 它 的 分 层 索 引 机 制 跟 这 个 差 


个 多 。 


为 什么 要 用 结构 化 数组 





跟 pandas 的 DataFrame 相 比 ，NumPy 的 结构 化 
数组 是 一 种 相对 较 低级 的 工具 。 它 可 以 将 日 个 内 存 
块 解释 为 市 有 任 音 复 林 髓 人 套 列 的 表格 型 结构 。 由 于 
数组 中 的 每 个 元 系 在 内 存 中 都 个 表示 为 固定 的 字 市 
数 ， 所 以 结构 化 数组 能 够 提供 非 利 快 速 高 效 的 磁盘 
数据 读 写 〈 包 括 内 存 映 像 ， 稍 后 将 详细 介绍 ) 、 网 
络 传输 等 功能 。 


结构 化 数组 的 万 一 个 各 见 用 法 是 ， 将 数据 文件 
写成 定 长 记录 字 节 流 ， 这 是 C 和 C++ 代 但 中 香 克 的 
数据 序列 化 手段 〈 业 界 许多 历史 系统 中 都 能 找 得 
到 ) 。 只 要 知道 文件 的 格式 (记录 有 的 大 小 、 元 系 的 
顺序 、 字 节 数 以 及 数据 类 型 等 ) ， 就 可 以 用 
np.fromfile 将 数据 读 入 内 存 。 这 种 用 法 超出 了 本 书 
的 范围 ， 只 要 知道 有 这 人 么 一 回 事 束 可 以 了 。 


结构 化 数组 操作 : numpy.lib.recfunctions 


适用 于 结构 化 数组 的 函数 没有 DataFrame 那 么 
多 。NumPy 模 块 numpy.lib.recfunctions 中 有 一 些 用 
于 增删 字段 或 执行 基本 连接 运算 的 工具 。 对 于 这 些 
工具 ， 我 们 需要 记 住 的 是 : 一 般 都 需要 创建 一 个 新 
数组 以 便 对 dtype 进 行 修改 《比如 添加 或 删除 一 
列 ) 。 这 些 函 数 就 留 给 有 兴趣 的 读者 目 己 去 研究 
了 ， 因 为 本 书 中 不 会 用 到 它们 。 




















更 多 有 天 排序 的 话题 


跟 Python 内 置 的 列表 一 样 ，ndarray 的 sort 实 例 
方法 也 是 就 地 排序 。 也 就 是 说 ， 数 组 内 容 的 重新 排 
列 是 不 会 产生 新 数组 的 : 

In [158]: arr = randn(6) 
In [159]: arr.sort() 


In [160]: arr 
Out[160]: array([-1.082 , 0.3759, 0.8014, 1.1397, 1.2888, 


在 对 数组 进行 就 地 排序 时 要 注意 一 点 : 如 果 有 目 
标 数组 只 是 一 个 视图 ， 则 原始 数组 将 会 被 修改 : 


In [161]: arr = randn(3, 5) 


In [162]: arr 

Out[162 |] : 

array([[-0.3318，-1.4711， 0.8705, -0.0847, -1.1329], 
[-1.0111, .3436, 2.1714, 0.1234, -0.0189], 
[ 0.1773, .7424, 0.8548, 1.038 ，-0.329 ]]) 


1 
已 所 


In [163]: arr[:，0].sort() # Sort first column values in-plac 


In [164]: arr 

Out[164]: 

array([[-1.0111, -1.4711, 0.8705, -0.0847, -1.1329], 
[-0.3318, -0.3436, 2.1714, 0.1234, -0.01891], 
[ 0.1773, 0.7424, 0.8548, 1.038 , -0.329 ]]) 


相反 ，numpy.sort 会 为 原 数组 创建 一 个 已 排序 
副本 。 它 所 接受 的 参数 〈 比 如 kind， 稍 后 介绍 ) 跟 


ndarray.sort 一 样 : 


In [165]: arr = randn(5) 


In [166]: arr 
Out[166]: array([-1.1181, -0.2415, -2.0051, 0.7379, -1.0614]) 


In [167]: np.sort(arr) 
Out[167]: array([-2.0051, -1.1181, -1.0614, -0.2415, 0.7379]) 


In [168]: arr 
Out[168]: array([-1.1181, -0.2415, -2.0051, 0.7379, -1.0614]) 


这 两 个 排序 方法 部 可 以 接受 一 个 axis 参 数 ， 
便 治 指定 轴 癌 对 各 块 数据 进行 单独 排序 : 


In [169]: arr = randn(3, 5) 


In [170]: arr 

Out[170] : 

array([[ 0.5955, -0.2682, 1.3389, -0.1872, 0.9111], 
[-0.3215, 1.0054, 5168, 1.1925, -0.1989], 
[ 0.3969, -1.7638, 0.6071, -0.2222, -0.2171]]) 


1 
© 


In [171]: arr.sort(axis=1) 


In [172]: arr 


Out[172] : 

array([[-0.2682, -0.1872, 0.5955, 0.9111, 1.3389], 
[-0.5168, -0.3215, -0.1989, 1.0054, 1.1925], 
[-1.7638, -0.2222, -0.2171, 0.3969, 0.6071]]) 


你 可 能 注意 到 了 ， 这 两 个 排序 方法 都 不 可 以 被 

会 产 
生 视 图 (也 就 是 说 ， 不 会 产生 副本 ， 不 需要 位 何 
Le 
有 关 列 表 的 小 技巧 : values[::-1] 可 以 返回 一 个 反 序 








的 列表 。 对 ndarray 也 是 如 此 : 


In [173]: arr[:, ::-1] 

Out[173]: 

array([[ 1.3389, 0.9111, 0.5955, -0.1872, -0.2682], 
[ 1.1925, 1.0054, -0.1989, -0.3215, -0.5168], 
[ 0.6071, 0.3969, -0.2171, -0.2222, -1.7638]]) 


间接 排序 : argsort 和 lexsort 


在 数据 分 析 工 作 中 ， 第 第 需 要 根据 一 个 或 多 个 
键 对 数据 集 进 行 排序 。 例 如 ， 一 个 有 关 学 生 信息 的 
数据 表 可 能 需要 以 姓 和 名 进行 排序 〈 先 姓 后 名 ) 。 
这 就 古 间 接 排 序 的 一 个 例子 ， 如 果 你 阅读 过 有 关 
pandas 的 章节 ， 那 束 已 经 见 过 不 少 高 级 例子 了 。 给 
定 一 个 或 多 个 键 ， 你 就 可 以 得 到 一 个 由 整数 组 成 的 
索引 数组 〈 我 杀 切 地 称 之 为 索引 器 ) ， 其 中 的 索引 
值 说 明了 数据 在 新 顺序 下 的 位 置 。argsort 和 
numpy.lexsort 就 是 实现 该 功能 的 两 个 主要 方法 。 下 
面 古 一 个 简单 的 例子 : 


In [174]: values = np.array([5, 0, 1, 3, 2]) 











In [175]: indexer = values.argsort() 


In [176]: indexer 
Out[176]: array([1, 2, 4, 3, 0]) 


In [177]: values[indexer] 
Out[177]: array([0，1，2，3，5]) 


下 面 这 段 代 人 码 根 据 数组 的 第 一 行 对 其 进行 排 


序 : 


In [178]: arr = randn(3, 5) 
In [179]: arr[0] = values 


In [180]: arr 

Out[180]: 

array([[ 5. / 0; Po ;35 2 ] ， 
[-0.3636, -0.1378, 2.1777，-0.4728， 0.8356], 
[-0.2089, 0.2316, 0.728 ,， -1.3918, 1.9956]]) 


In [181]: arr[:，arr[0].argsort()] 

Out[181] : 

array([[ 9. i y 2. Bs De ], 
[-0.1378, 2.1777, 0.8356, -0.4728, -0.3636], 
[ 0.2316, 0.728 ， 1.9956, -1.3918, -0.2089]]) 


lexsort 跟 argsort 差 不 多 ， 只 不 过 它 可 以 一 次 性 
对 多 个 键 数 组 执行 间接 排序 (字典 序 ) 。 假 设 我 们 


想 对 一 些 以 姓 和 名 标识 的 数据 进行 排序 : 


In [182]: first_name = np.array(['Bob', 'Jane', 'Steve', 


'Bill 


In [183]: last_name = np.array(['Jones', 'Arnold', ‘'Arnold', 


In [184]: sorter = np.lexsort((first _ name, last_name)) 


In [185]: zip(last_ name[sorter], first_name[sorter]) 
Out[185]: 

[('Arnold', ‘'Jane'), 

'Arnold', 'Steve'), 

'Jones', ‘'Bill'), 

'Jones', 'Bob'), 

'Walters', 'Barbara')] 


全 人 -人 -全 


刚 开 始 使 用 lexsort 的 时 候 可 能 会 比较 容易 头 


晕 ， 这 是 因为 键 的 应 用 顺序 是 从 最 后 一 个 传 入 的 算 


起 的 。 不 难看 出 ，last_name 是 先 于 first_name 被 应 
用 的 。 


注意 : Series 和 DataFrame 的 Sort_index 以 及 
Series 凶 order 方 法 束 是 通过 这 些 函 数 的 变 体 ( 它 们 
还 必须 考虑 缺失 值 〉 实 现 的 。 


其 他 排序 算法 
稳定 的 (stable〉 排 序 算 法 会 保持 等 价 元 素 的 


相对 位 置 。 对 于 相对 位 置 具有 实际 意义 的 那些 间接 
排序 而 言 ， 这 一 氮 非 党 重要 : 


In [186]: values = np.array(['2:first', '2:second', '1:first', 








In [187]: key = np.array([2, 2, 1, 1, 1]) 
In [188]: indexer = key.argsort(kind='mergesort') 


In [189]: indexer 

Out[189]: array([2, 3, 4, 0, 1]) 

In [190]: values.take(indexer) 

Out[190]: 

array(['1:first', '1:second', '1:third', '2:first', '2:second' 
dtype='|S8°') 


mergesort (合并 排序 ) 是 唯一 的 稳定 排序 下 
?， 它 保证 有 O(n log n) 的 性 能 (空间 复杂 度 ) ， 但 
是 其 平均 性 能 比 默认 的 guicksort( 快 速 排序 ) 要 
产 。 表 12-3 列 出 了 可 用 的 排序 算法 及 其 相关 的 性 能 





指标 。 大 部 分 用 户 完全 不 需要 知道 这 些 东 西 ， 但 了 
解 一 下 总 是 好 的 。 


表 12-3: 数组 排序 算法 


kind 速度 ”稳定 性 工作 空间 最 坏 的 情况 
'quicksort' 1 售 0 O(n’) 
Imergesort' 2 是 n/2 On log m) 
'heapsort' 3 合 0 O(n log n) 





警告 : 到 编写 本 书 时 为 止 ，Python 对 象 
Cdtype=object) 数组 可 用 的 排序 算法 只 有 
quicksort。 也 了 吏 是 说 ， 在 处 理 Python 对 象 时 如 条 需 
要 用 到 稳定 排序 ， 那 就 得 自己 想 办 法 了 。 


numpy.searchsorted: 在 有 序数 组 中 但 找 元 


人 ~、 





searchsorted 是 一 个 在 有 序数 组 上 执行 二 分 查找 
的 数组 方法 ， 只 要 将 值 插 入 到 和 它 返 回 的 那个 位 置 就 
能 维持 数组 的 有 序 性 ; 


In [191]: arr = np.array([0，1，7，12，15]) 


In [192]: arr.searchsorted(9) 
Out[192]: 3 


你 可 能 已 经 想到 了 ， 传 入 一 组 值 束 能 得 到 一 组 
索引 : 


In [193]: 
Out[193] : 


arr.searchsorted([0, 8, 11, 16]) 
array([0, 3, 3, 5]) 


从 上 面 的 结果 中 可 以 看 出 ， 对 于 元 素 0， 


searchsorted 会 返回 0。 这 是 因为 其 默认 行为 是 返回 





相等 值 组 的 左 侧 索 引 : 


In [194]: 


In [195]: 
Out [195] : 


In [196]: 
Out[196 1] : 


arr = np.array([0, 0, 0, 1, 1, 1, 1]) 


arr.searchsorted([0, 11]) 
array([©0, 3]) 


arr.searchsorted([0, 1], side='right') 
array([3, 7]) 


再 来 看 searchsorted 的 男 一 个 用 法 ， 假 设 我 们 有 
一 个 数据 数组 〈 其 中 的 值 在 0 到 10000 之 间 ) ， 还 有 
一 个 表示 “ 面 元 边界 ”的 数组 ， 我 们 希望 用 它 将 数据 
数组 拆 分 开 : 


In [197]: 
In [198]: 


In [199] : 
Out[199]: 


array([ 








data = np.floor(np.random.uniform(0, 10000, size=50) 


bins = np.array([0, 100, 1000, 5000, 10000]) 


data 

8304., 4181.， 9352., 4907 ,， 
2774., 5130., 9553., 4997 ,， 
651.， 8653 .， 1695., 4764., 
1513., 5872., 8992 .， 7656 . ， 
4150 , ， 8601.， 3946 .， 9904 ,， 
8480., 4298.， 2708 .， 7358 . ， 
871.， 7973.]) 





然后 ， 为 了 得 到 各 数据 点 所 属 区 间 的 编号 〈 其 
中 1 表示 面 元 [0,100)) ， 我 们 可 以 直接 使 用 


searchsorted: 


In [200]: labels = bins.searchsorted(data) 


In [201]: labels 

Out[201]: 

array([4, 3, 4, 3, 3, 4, 3, 4, 3, 4, 4, 3, 3, 4, 2, 3, 2, 4, 2 
3, 3, 4, 4, 4, 3, 4, 3, 3, 3, 4, 3, 4, 4, 4, 4, 3, 4, 
3, 4, 2, 4]) 


通过 pandas 的 groupby 使 用 该 结果 即 可 非常 轻松 
地 对 原 数据 集 进行 拆 分 : 


In [202]: Series(data).groupby(labels).mean() 
Out[202] : 

2 649 ,333333 

3 3411.521739 

4 7935 .041667 


注意 ， 其 实 NumPy 的 digitize 函 数 也 可 用 于 计算 
这 种 面 元 编写: 


In [203]: np.digitize(data, bins) 


Out[203]: 

array([4, 3, 4, 3, 3, 4, 3, 4, 3, 4, 4, 3, 3, 4, 2, 3, 2, 4, 2 
3, 3, 4, 4, 4, 3, 4, 3, 3, 3, 4, 3, 4, 4, 4, 4, 3, 4, 
3, 4, 2, 4]) 


NumPy 的 matrix 关 


跟 其 他 面向 矩阵 运算 和 线性 代数 的 语言 相 比 
(如 MATLAB、GAUSS 等 ) ，NumPy 的 线性 代数 
语法 往往 比较 党 琐 。 其 中 一 个 原因 是 ， 窍 阵 操作 需 
要 用 到 numpy.dot。 再 加 上 NumPy 的 索引 语义 也 不 
同 ， 所 以 有 时 不 那么 容易 将 代码 移植 到 Python 
b。 从 二 维 数组 中 选取 一 行 〈 比 如 X[1L:]) 或 一 列 
(如 X[:,1) 将 会 产生 一 个 一 维 数组 ， 而 在 
MATLAB 中 则 是 二 维 数组 。 








In [204]: X= np.array([[ 8.82768214, 3.82222409, -1.1427647 

i [ 3.82222409, 6.75272284, 0.8390910 
[-1.14276475, 0.83909108, 5.0169052 
[ 2.04411587, 2.08293758, 0.7957324 


In [205]: X[:，0] # 一 维 的 
Out[205]: array([ 8.8277, 3.8222, -1.1428, 2.0441]) 





In [206]: y = X[:，:1] # 切片 操作 可 产生 二 维 结果 


In [207]: x 

Out[207]: 

array([[ 8.8277, 3.8222, -1.1428, 2.0441], 
[ 3.8222, 6.7527, 0.8391, 2.0829], 
[-1.1428, 0.8391, 5.0169, 0.7957], 
[ 2.0441, 2.0829, 0.7957, 6.241 ]]) 


In [208]: y 

Out[208]: 

array([[ 8.8277], 
[ 3.8222], 
[-1.1428], 
[ 2.0441]]) 


在 这 个 问题 中 ， 积 y xy 会 被 表达 成 下 面 这 个 样 
于 : 


In [209]: np.dot(y.T, np.dot(Xx, y)) 
Out[209]: array([[ 1195.468]]) 


为 了 不 用 编写 大 量 的 矩阵 运算 代码 ，NumpPy 提 
供 了 一 个 matrix 类 ， 其 索引 行为 更 像 MATLAB: 单 
行 或 列 会 以 二 维 形式 返 回 ， 且 使 用 星 号 〈*) 的 乘 
法 直接 就 是 矩阵 乘法 。 上 面 那 些 运算 用 
numpy.matrix 来 编写 的 话 ， 应 该 是 下 面 这 个 样子 : 


In [210]: Xm = np.matrix(X) 




















In [211]: ym = xm[:, 0] 


In [212]: Xxm 

Out[212] : 

matrix([[ 8.8277, 3.8222, -1.1428, 2.0441], 
[ 3.8222, 6.7527, 0.8391, 2.0829], 
[-1.1428, 0.8391, 5.0169, 0.7957], 
[ 2.0441, 2.0829, 0.7957, 6.241 ]]) 


In [213]: ym 


Out[213]: 

matrix([[ 8.8277], 
[ 3.8222], 
[-1.1428], 
[ 2.0441]]) 


In [214]: ym.T * Xm * ym 
Out[214]: matrix([[ 1195.468]]) 


matrix 还 有 一 个 特殊 的 属性 I[， 其 功能 是 返回 失 
阵 的 逆 : 











In [215]: Xm.I * X 
Out[215]: 
matrix([[ 1., 


1 
OOPO 

1 
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[ 
[ 
[ 
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我 不 建议 用 numpy.matrix 蔡 代 正 规 的 ndarray， 
因为 它们 的 应 用 面 较 罕 。 对 于 个 别 带 有 大 量 线 性 代 
数 运算 的 施 数 ， 可 以 将 函数 参数 转换 为 matrix 类 
型 ， 然 后 在 返回 之 前 用 np.asarray 〈 不 会 复制 任何 数 
据 ) 将 其 转换 回 正 规 的 ndarray。 


详 注 6: 原文 有 卜 义 ， 根 据 上 下 文 的 意思 ， 应 该 是 
说 不 容易 把 其 他 语言 的 代码 移植 过 来 。 





局 级 数组 输入 输出 


我 在 第 4 章 中 讲 过 ，np.save 和 np.load 可 用 于 读 
写 磁 盘 上 以 二 进 制 格 式 存 储 的 数组 。 其 实 还 有 一 些 
工具 可 用 于 更 为 复杂 的 场景 。 尤 其 是 内 存 映 像 
(memory map) ， 它 使 你 能 处 理 在 内 存 中 放 不 下 
的 数据 集 。 


内 存 映 像 文 件 


内 存 映 像 文 件 是 一 种 将 磁盘 上 的 非常 大 的 二 进 
制 数据 文件 当做 内 存 中 的 数组 进行 处 理 的 方式 。 
NumpPy 实 现 了 一 个 类 似 于 ndarray 的 memmap 对 象 ， 
它 允 许 将 大 文件 分 成 小 段 进 行 读 写 ， 而 不 是 一 次 性 
将 整个 数组 读 入 内 存 。memmap 也 拥有 跟 普 通 数组 
一 样 的 方法 ， 因 此 ， 基 本 上 只 要 是 能 用 于 ndarray 的 
算法 就 也 能 用 于 memmap。 


使 用 函数 np.memmap 并 传 入 一 个 文件 路 径 、 数 
据 类 型 、 形 状 以 及 文件 模式 ， 即 可 创建 一 个 新 的 


memmap: 











In [216]: mmap = np.memmap('mymmap', dtype='float64', mode="'w+ 


In [217]: mmap 
Out[217]: 
memmap([[ 0., OQ0., 0O., ..., 0., 0., 0.], 


[ 0., 0., 0., ..., 0., 0., 0.], 
[ 0., 0., 0., ..., 0., 0., 0.], 
[ 0., 0., 0., ..., 0., 0., 0.], 
[ 0., 0., 0., ..., 0., 0., 0.], 
[ 0., 0., 0., ..., 0., 0., 0.]]) 





对 memmap 切 片 将 会 返回 磁盘 上 的 数据 的 视 
图 : 


In [218]: section = mmap[:5] 


如 果 将 数据 赋值 给 这 些 视 图 : 数据 会 先 被 缓存 
在 内 存 中 《〈 束 像 是 Python 的 文件 对 象 ) ， 调 用 flush 
即 可 将 其 写 入 磁盘 。 


In [219]: section[:] = np.random.randn(5, 10000) 








In [220]: mmap.flush() 


In [221]: mmap 


Out[221]: 

memmap([[-0.1614, -0.1768, 0.422 ,..., -0.2195, -0.,1256, -0. 
[ 0.4898, -2.2219, -0.7684, ..., -2.,3517, -1.0782, 1., 
[-0.6875, 1.6901, -0.7444, ..., -1.4218, -0.0509, 1., 
二 
[ 0， ， 9， ， 0， ，,，,， 0， 
[ 0， ， 0， ， 0， ，,，,， 0， 
[ 0， ， 0, ， 0， ， .1 0， 


In [222]: del mmap 


只 要 某 个 内 存 映像 超出 了 作用 域 ， 它 就 会 被 垃 
圾 回收 需 回 收 ， 之 前 对 其 所 做 的 任何 修改 都 会 被 号 
入 磁盘 。 当 打开 一 个 已 经 存在 的 内 存 映像 时 ， 仍 然 
需要 指明 数据 类 型 和 形状 ， 因 为 磁盘 上 的 那个 文件 








只 是 一 块 二 进 制 数据 而 已 ， 没 有 任何 元 数据 : 


In [224]: mmap 


Out[224]: 

memmap([[-0.1614, -0.1768, 0.422 , ..., -0.2195, -0.1256, -0., 
[ 0.4898, -2.2219, -0.7684, ...,, -2.3517, -1.0782, 1. 
[-0.6875, 1.6901, -0.7444, ..., -1.4218, -0.0509, 1. 
[ 60. ， 0. ， 0， ,，...,， 0. ， 0， ， 0， 
[ 60. ， 0. ， 0. ,，...,， 0. ， 0. ， 0. 
[ 60. ， 0. ， 0. ,，...,， 0， ， 0. ， 0. 


由 于 内 存 映像 其 实 束 是 一 个 存放 在 磁盘 上 的 
ndarray， 所 以 完全 可 以 使 用 前 面 介绍 的 结构 化 
dtype。 


HDF5 及 其 他 数组 存储 方式 


PyTables 和 h5py 这 两 个 Python 项 目 可 以 将 
NumPy 的 数组 数据 存储 为 高 效 且 可 压缩 的 HDF5 格 
式 CHDEF 意 思 是 “层次 化 数据 格式 ”) 。 你 可 以 安全 
地 将 好 几 百 GB 甚至 TB 的 数据 存储 为 HDF5 格 式 。 很 
遗憾 ， 这 些 库 的 用 法 超出 了 本 书 的 范围 。 


PyTables 提 供 了 一 些 用 于 结构 化 数组 的 高 级 三 
询 功能 ， 而 且 还 能 添加 列 索 引 以 提升 得 询 速度 。 这 
跟 关 系 型 数据 库 所 提供 的 表 索 引 功 能 非常 类 似 。 





性 能 建议 

使 用 NumpPy 的 代码 的 性 能 一 般 都 很 不 错 ， 因 为 
数组 运算 一 般 都 比 纯 Python 循 环 快 得 多 。 下 面 大 致 
列 出 了 一 些 需要 注意 的 事项 : 


将 Python 循环 和 条 件 馆 辑 转 换 为 数组 运算 和 布 
尔 数 组 运算 。 


尽量 使 用 广播 。 
避免 复制 数据 ， 尺 量 使 用 数组 视图 〈( 即 切 








ls» 

-利用 ufunc 及 其 各 种 方法 。 

如 果 单 用 NumpPy 无 论 如 何 都 达 不 到 所 需 的 性 能 
指标 ， 就 可 以 考虑 一 下 用 C、Fortran 或 Cython (等 
下 会 稍微 介绍 一 下 ) 来 编写 代码 。 我 目 己 在 工作 中 
经 和 常会 用 到 Cython (http://cython.org〉， 因 为 它 不 
用 花费 我 太 多 精力 就 能 得 到 C 语 言 那 样 的 性 能 。 
连续 内 存 的 重要 性 


虽然 这 个 话题 有 点 超出 本 书 的 范围 ， 但 还 是 要 





提 一 下 ， 因 为 在 某 些 应 用 场景 中 ， 数 组 的 内 存 布 局 
可 以 对 计算 速度 造成 极 大 的 影响 。 这 是 因为 性 能 关 
别 在 一 定 程 上 度 上 跟 CPU 的 高 速 绥 存 (cache) 体系 有 
关 。 运 算 过 程 中 访问 连续 内 存 块 《〈 例 如 ， 对 以 C 顺 
序 存储 的 数组 的 行 求 和 ) 一 般 是 最 快 的 ， 因 为 内 存 
子 系统 会 将 适当 的 内 存 块 缓存 到 超 高 速 的 L1 或 
L2CPU Cache 中 7。 此 外 ，NumpPy 的 C 语 言 基 础 
代码 ( 某 些 ) 对 连续 存储 的 情况 进行 了 优化 处 理 ， 
这 样 就 能 避免 一 些 跨 越 式 的 内 存 访 问 。 


一 个 数组 的 内 存 布局 是 连续 的 ， 吏 是 说 元 素 是 
以 它们 在 数组 中 出 现 的 顺序 〈 即 Fortran 型 〈 列 优 
先 ) 或 C 型 〈 行 优先 ) ) 存储 在 内 存 中 的 。 默 认 情 
况 下 ，NumPy 数 组 是 以 C 型 连续 的 方式 创建 的 。 列 
优先 的 数组 (比如 C 型 连续 数组 的 转 置 ) 也 被 称 为 
Fortran 型 连续 。 通 过 ndarray 的 fags 属 性 即 可 查看 这 
些 信息 : 























In [227]: arr_c = np.ones((10090, 1000), order='C') 


In [228]: arr_f = np.ones((1000, 1000), order="'F') 


In [229]: arr_c.flags In [230]: arr_f.flags 

Out[229 1] : Out[230] : 
C_CONTIGUOUS : True C_CONTIGUOUS : False 
F_CONTIGUOUS : False F_CONTIGUOUS : True 
OWNDATA : True OWNDATA : True 
WRITEABLE : True WRITEABLE : True 
ALIGNED : True ALIGNED : True 
UPDATEIFCOPY : False UPDATEIFCOPY : False 


In [231]: arr_f.flags.f_contiguous 


Out[231]: True 


在 这 个 例子 中 ， 对 两 个 数组 的 行进 行 求 和 计 
算 ， 理 论 上 说 ，arr_c 会 比 arr f 快 ， 因 为 arr_c 的 行 在 
内 存 中 是 连续 的 。 我 们 可 以 在 IPython 中 用 %timeit 
来 确认 一 下 : 


In [232]: %timeit arr_c.sum(1) 
1000 loops, best of 3: 1.33 ms per loop 





In [233]: %timeit arr_f.sum(1) 
100 loops, best of 3: 8.75 ms per loop 





如 果 想 从 NumPy 中 提升 性 能 ， 这 里 束 应 该 是 下 
手 的 地 方 。 如 果 数 组 的 内 存 顺 序 不 符合 你 的 要 求 ， 
使 用 copy 并 传 入 'C' 或 F' 即 可 解决 该 问题 : 


In [234]: arr_f.copy('C').flags 
Out[2341]: 

C_CONTIGUOUS : True 

F_CONTIGUOUS : False 

OWNDATA : True 

WRITEABLE : True 

ALIGNED : True 

UPDATEIFCOPY : False 


注意 ， 在 构造 数组 的 视图 时 ， 其 结果 不 一 定 是 
连续 的 : 


In [235]: arr_c[:50].flags.contiguous In [236]: arr_c[:, :50 
Out[235]: True Out[236]: 


C_CONTIGUOUS :; False 
F_CONTIGUOUS :; False 
OWNDATA : False 
WRITEABLE : True 


ALIGNED : True 
UPDATEIFCOPY : False 


其 他 加 速 手段 Cython、f2py、C 


近年 来 ，Cython 项 目 〈http:Wcython.org) 已 经 
受到 了 许多 Python 程 序 员 的 认可 ， 用 它 实 现 的 代码 
运行 速度 很 快 “可 能 需要 与 C 或 C++ 库 交 互 ， 但 无 
需 编 写 纯粹 的 C 代 码 ) 。 你 可 以 将 Cython 看 成 是 市 
有 静态 类 型 并 能 租 入 C 函 数 的 Python。 下 面 这 个 简 
单 的 Cython 函 数 用 于 对 一 个 一 维 数组 的 所 有 元 素 求 
和 |: 


from numpy cimport ndarray, float64 t 








def sum elements(ndarray[float64 t] arr): 
cdef Py_ssize t i, n = len(arr) 
cdef float64 t result = 0 


for i in range(n): 
result += arr[i] 


return result 


Cython 人 处理 这 段 代 人 码 时 ， 先 将 其 翻译 为 C 代 
人 码 ， 然 后 编译 这 些 C 代 码 并 创建 一 个 Python 扩 展 。 
Cython 是 一 种 诱 人 的 高 性 能 计算 方式 ， 因 为 编写 
Cython 代 码 只 比 编写 纯 Python 代 码 多 花 一 点 时 间 而 
已 ， 而 且 还 能 跟 NumPy 紧 密 结 合 。 一 般 的 工作 流程 
是 : 得 到 能 在 Python 中 运行 的 算法 ， 然 后 再 将 其 翻 
译 为 Cython 〈 只 需 添 加 类 型 定义 并 完成 一 些 其 他 必 











要 的 工作 即 可 ) 。 更 多 信息 请 参考 该 项 目的 文档 。 


其 他 有 关 NumPy 的 高 性 能 代码 编写 手段 还 有 
f2py (FORTRAN 77 和 90 的 包装 器 生成 器 ) 以 及 利 
用 纯 C 语 言 编写 Python 扩展 。 


详 注 7: 这 里 主要 考虑 的 是 预 读 机 制 以 及 缓存 块 失 
效率 。 由 于 这 个 存储 层次 是 纯 便 件 实 现 的 ， 谁 的 程 
序 都 控制 不 了 ， 所 以 数据 最 好 连续 存储 。 





附录 A Python 语言 精 要 


知识 是 一 座 宝 库 ， 而 实践 就 是 开局 这 座 宝 库 的 
钥匙 


不 上 0o 








一 -LIhomas Fuller 


人 们 第 党 问 我 要 有 关 学 习 Python 数 据 处 理 方面 
的 优质 资源 。 虽 然 市 面 上 有 许多 非常 不 错 的 讲解 
Python 语 言 的 图 书 ， 但 我 在 推荐 的 时 候 经 第 还 古 会 
犹 殉 不 决 ， 因 为 它们 都 是 针对 普通 读者 的 ， 没 有 为 
那些 只 想 “ 加 载 点 儿 数 据 ， 做 点 计算 ， 再 男 点 儿 
图 ”的 读者 做 专门 的 裁剪 。 其 实 有 儿 本 书 确实 是 关 
于 Python 科 学 计算 编程 的 ， 但 它们 是 专 为 数值 计算 
和 工程 应 用 而 设计 的 : 解 微 分 方程 、 计 算 积分 、 做 
棕 特 卡 岁 模拟 ， 以 及 其 他 各 种 数学 方面 的 主题 ， 但 
就 是 没有 数据 分 析 和 统计 方面 的 。 由 于 本 书 的 目的 
征 让 大 家 成 为 Python 数据 处 理 方面 的 熟 手 ， 所 以 我 
认为 有 必要 伦 扣 时间 从 结构 化 和 非 结 构 化 数据 处 理 
的 角度 重点 介绍 一 些 有 关 Python 内 置 数据 结构 和 库 
的 最 重要 的 功能 。 我 将 只 介绍 一 些 大 致 的 信息 ， 只 
要 对 本 书 的 学 习 够 用 就 行 。 


本 附录 并 没有 打算 成 为 Python 语言 的 详尽 指 
南 ， 只 会 对 书 中 反复 用 到 的 那些 功能 做 一 个 基本 的 




















概述 。 对 于 Python 新 手 而 言 ， 我 建议 在 读 完 本 附录 
后 再 看 看 Python 的 官方 教程 

Chttp:/docs.python.org) ， 最 好 能 再 谈 一 两 本 有 关 
Python 通 用 编程 方面 的 优质 图 书 。 以 我 的 观点 来 
看 ， 如 果 只 需要 用 Python 进 行 高 效 的 数据 分 析 工 
作 ， 根 本 就 没 必 要 非得 成 为 通用 软件 编程 方面 的 专 
家 不 可 。 我 强烈 建议 你 用 IPython 实 验 所 有 的 代码 示 
例 ， 并 查看 各 种 类 型 、 函 数 以 及 方法 的 文档 。 注 
意 ， 这 些 例子 中 所 用 到 的 一 些 代 人 码 暂 时 还 没 必要 解 
释 得 那么 详细 。 


本 书 主 要 关注 的 是 能 够 处 理 大 数据 集 的 高 性 能 
数组 计算 工具 。 为 了 使 用 这 些 工 具 ， 你 常 第 得 先 把 
那些 乱七八糟 的 数据 处 理 成 漂 膨 点 的 结构 化 形式 。 
好 在 Python 是 一 种 最 易 上 手 的 数据 整形 语言 。 你 的 
ee 数据 分 析 的 准备 工作 就 越 简 




















Python 解释 谷 


python 是 一 种 解释 型 语言 。Python 解 释 右 是 通 
过 “一 次 执行 一 条 语句 ”的 方式 运行 程序 的 。 标 准 的 
交互 式 Python 解 释 器 可 以 在 命令 行 上 通过 python 命 
令 局 动 : 


$ python 
Python 2.7.2 (default, Oct 4 2011, 20:06:09) 


[GCC 4.6.1] on linux2 

Type "help", "copyright", "credits" or "license" for more info 
>>>a=5 

>>> print a 

5 





上 面 的 ">>>" 是 提示 符 ， 你 可 以 在 那里 输入 表 
达 式 。 要 退出 Python 解释 堪 并 返回 命令 提示 和 人 符 ， 输 
入 exit0) 或 按 下 Ctrl-D 即 可 。 


运行 Python 程序 的 方式 很 简单 ， 只 需 调用 
python 并 将 一 个 .py 文件 作为 其 第 一 个 参数 即 可 。 假 
设 我 们 已 经 创建 了 一 个 hello_world.py， 其 内 容 如 
下 : 


print 'Hello world' 
只 需 在 终 疹 上 输入 如 下 命令 即 可 运行 : 


$ python hello world.py 
Hello world 


虽然 许多 Python 程序 员 用 这 种 方式 执行 他 们 的 
所 有 Python 代码 ， 但 Python 科学 计算 程序 员 则 更 趋 
问 于 使 用 IPython 〈 一 种 加 强 的 交互 式 Python 解释 
器 ) 。 第 3 章 专 门 介绍 了 IPython 系 统 。 通 过 使 
用 %run 命 令 ，IPython 会 在 同一 个 进程 中 执行 指定 
文件 中 的 代码 。 因 此 ， 在 这 些 代 码 执行 完毕 之 后 ， 
你 就 可 以 通过 交互 的 方式 研究 其 结果 了 。 

















$ ipython 
Python 2.7.2 |EPD 7.1-2 (64-bit)| (default, Jul 3 2011, 15:17 
Type "copyright", "credits" or "license" for more information. 


IPython 0.12 -- An enhanced Interactive Python. 

? -> Introduction and overview of IPython's features. 
%quickref -> Quick reference. 

help -> Python's own help system. 

object? -> Details about 'object', use 'object??' for extra 


In [1]: %run hello world.py 
Hello world 


In [2]: 


默认 的 IPython 提 示 符 采用 的 是 一 种 编号 的 风格 
(如 In [2]:) ， 而 不 是 标准 的 ">>>" 提 示人 符 。 


基础 知识 





语言 语义 





Python 语言 的 设计 特点 是 重视 可 读 性 、 人 简洁 性 
以 及 明确 性 。 有 些 人 甚至 将 它 看 做 “可 执行 的 伪 
公 ” 


缩 进 ， 而 不 是 大 括号 
Python 是 通过 空白 符 〈 制 表 符 或 空格 ) 来 组 织 


代码 的 ， 不 像 其 他 语言 (如 R、C++、Java、Perl 
等 ) 用 的 是 大 括号 。 以 for 循 环 为 例 ， 要 实现 前 面 说 


的 那个 快速 排序 算法 : 


for x in array: 
If x < pivot: 
less.append(x) 
else: 


greater .append(x) 





冒 亏 表示 一 段 缩 进 代码 基 的 开始 ， 其 后 的 所 有 


口 ， > 


代码 都 必须 缩 进 相 同 的 量 ， 直 到 代码 块 结束 为 止 。 
在 别 的 语言 中 ， 你 可 能 会 看 到 下 面 这 样 的 东西 : 


for x in array { 
if x < pivot { 
less.append(x) 
} else 
greater .append(x) 
} 








} 


使 用 空 日 符 的 主要 好 处 是 ， 它 能 使 大 部 分 
Python 代码 在 外 观 上 看 起 来 差不多 。 也 就 是 说 ， 当 
你 阅读 东 段 不 是 目 己 编写 的 (或 一 年 前 匆忙 编写 
的 ) 代码 时 不 怎么 容易 出 现 “ 认 知 失调 ”。 在 那些 空 
日 答 无 实际 意义 的 语言 中 ， 你 可 能 会 及 现 一 些 格式 
不 统一 的 代码 ， 比 如 : 


for x in array 








if x < pivot 
less.append(x) 


else 


{ 


greater .append(x) 


3 


无 论 对 它 是 爱 是 恨 ， 反 正 有 意义 的 空白 符 就 是 
Python 程序 员 的 生活 现实 。 再 说 了 ， 以 我 的 经 验 来 
看 ， 它 能 使 Python 代码 具有 更 局 的 可 读 性 《全 少 比 
我 用 过 其 他 语言 要 高 )。 虽 然 第 一 眼看 上 去 会 觉得 
比较 火星 ， 但 我 相信 不 用 多 久 你 惑 会 喜欢 上 它 的 。 


注意 : 我 强烈 建议 用 4 个 空格 作为 默认 缩 进 
量 ， 这 样 ， 你 的 编辑 器 就 会 将 制 表 符 答 换 为 4 个 空 
格 。 许 多 文本 编辑 器 都 有 一 个 这 样 的 设置 项 。 有 些 
人 豆 欢 用 制 表 符 或 其 他 数量 的 空格 ， 但 用 2 个 空格 
的 情况 非常 少见 。4 个 空格 其 实 就 是 一 种 标准 ， 绝 
大 部 分 Python 程 序 员 都 这 么 用 。 所 以 我 建议 ， 除非 
有 特殊 的 原因 ， 人 否则 就 用 4 个 空格 吧 。 

到 目前 为 止 ， 你 可 以 看 到 ，Python 语 句 还 能 不 
以 分 号 结束 。 不 过 分 号 还 是 可 以 用 的 ， 比 如 在 一 行 
上 分 隔 多 条 语句 |: 



































在 一 行 上 放置 多 条 语句 的 做 法 在 Python 中 一 由 
是 不 推荐 的 ， 因 为 这 往往 会 使 代码 的 可 读 性 变 兰 。 


万 物 几 对象 





Python 语言 的 一 个 重要 特点 束 是 其 对 象 模型 的 
一 致 性 。Python 解 释 需 中 的 任何 数值 、 字 符 串 、 数 
据 结 构 、 函 数 、 类 、 模 块 等 都 待 在 它们 目 己 的 “全 
子 ” 里 ， 而 这 个 “盒子 ”也 就 是 Python 对 象 。 每 个 对 象 
都 有 一 个 与 之 相关 的 类 型 〈 比 如 字符 串 或 函数 ) 以 
及 内 部 数据 。 在 实际 工作 当中 ， 这 使 得 Python 语言 
变 得 非常 灵活 ， 因 为 即使 是 函数 也 能 被 当做 其 他 对 
象 那 样 处 理 。 











注释 


任何 前 级 为 井 与 〈(#) 的 文本 都 会 被 Python 解 
释 占 忽略 挥 。 这 通 第 用 于 在 代码 中 添加 注释 。 有 时 
你 可 能 只 是 想 排 除 不 运行 茶 些 代码 块 而 不 想 删 除 它 
们 。 最 简单 的 办 法 束 是 注释 挥 那 些 代 码 : 


results = [|] 
for line in file_ handle: 
# 暂时 保留 空 行 
# if len(line) == 0: 
# continue 
results.append(line.replace('foo', "bar ')) 





函数 调用 和 对 象 方法 调用 





函数 的 调用 需要 用 到 圆 括 号 以 及 0 个 或 多 个 参 
数 ， 此 外 还 可 以 将 返回 值 赋值 给 一 个 变量 : 





result = f(x, y, 2z) 
g() 


几乎 所 有 的 Python 对 象 都 有 一 些 附属 函数 (也 
就 是 方法 ) ， 它 们 可 以 访问 该 对 象 的 内 部 数据 。 方 
法 的 调用 是 这 样 写 的 : 

obj.some_method(x, y, 2z) 

图 数 既 可 以 接受 位 置 参数 ， 也 可 以 接受 关键 字 
参数 : 


result = f(a, b, c, d=5, e='foo') 


稍 后 将 详细 介绍 这 个 内 容 。 
变量 和 按 引 用 传递 





在 Python 中 对 变量 赋值 时 ， 你 其 实 是 在 创建 等 
写 右 侧 对 象 的 一 个 引用 。 用 实际 的 例子 来 说 吧 ， 看 
看 下 和 面 这 个 整数 列表 : 


In [241]: a = [1, 2, 3] 


假如 我 们 将 a 赋值 给 一 个 新 变量 b: 


in [242]: b= 8 


在 东 些 语言 中 ， 该 赋值 过 程 将 会 导致 数据 








[12,3] 被 复制 。 而 在 Python 中 ，a 和 b 现 在 都 指向 同 
一 个 对 象 ， 即 原始 列表 [1,2,3] (如 图 A-1 所 示 ) 。 你 
可 以 目 己 验证 一 下 : 对 a 添加 一 个 元 素 ， 然 后 看 看 b 
的 情况 。 


In [243]: a.append(4) 








In [244]: b 
Out[244]: [1, 2, 3, 4] 




















图 A-1: 指 同 同一 个 对 象 的 两 个 引用 


理解 Python 引 用 的 语义 以 及 数据 复制 的 条 件 、 
方式 、 原 因 等 知识 对 于 在 Python 中 处 理 大 数据 集 非 


名 重要。 


注意 : 赋值 (assignment) 操作 也 叫做 绑 定 
(binding〉， 因 为 我 们 其 实 是 将 一 个 名 称 和 一 个 对 
象 绑 定 到 一 起 。 已 经 赋 过 值 的 变量 名 有 时 也 被 称 为 
己 绑 定 变 量 (bound variable) 。 


当 你 将 对 象 以 参数 的 形式 传 入 函数 时 ， 其 实 只 
是 传 入 了 一 个 引用 而 已 ， 不 会 发 生 任何 复制 。 
此 ，Python 补 称 为 是 按 引 用 传递 的 ， 而 茶 些 其 他 的 

















语言 则 既 文 持 按 值 传递 《创建 副本 ) 又 文 持 按 引 用 
传递 。 也 就 是 说 ，Python 函 数 可 以 修改 其 参数 的 内 
容 。 假 设 我 们 有 下 面 这 样 的 一 个 函数 : 


def append_element(some_ list, element): 
some_list.append(element) 


根据 刚才 所 说 的 ， 下 面 这 样 的 结果 应 该 是 在 章 
料 之 中 的 : 


In [2]: data = [1, 2, 3] 








In [3]: append_element(data, 4) 


In [4]: data 
Out[4]: [1，2，3，4] 





动态 引用 ， 强 类 型 


跟 许 多 编译 型 语言 (如 Java 和 C++) 相反 ， 
Python 中 的 对 象 引用 没有 与 之 关联 的 类 型 信息 。 下 
面 这 些 代 码 不 会 有 什么 问题 : 

In [245]: a = 5 


In [246]: type(a) 
Out[246]: int 





In [247]: a = 'foo' 
In [248]: type(a) 
Out[248]: str 


变量 其 实 束 是 对 象 在 特定 命名 空间 中 的 名 称 而 








己 。 对 象 的 类 型 信息 是 保存 在 它 目 己 内 部 的 。 有 些 
人 可 能 会 轻率 地 认为 Python 不 是 一 种 “类 型 化 语 
言 ”。 其 实 不 是 这 样 的 。 看 看 下 面 这 个 例子 : 


In [249]: "5" + 5 





TypeError Traceback (most rece 
<ipython-input-249-f9dbf5f0b234> in <module>() 
---->1'5'+5 


TypeError: cannot concatenate 'str' and 'int' objects 


在 有 些 语言 中 (比如 Visual Basic) ， 字 人 符 
串 '5' 可 能 会 被 隐 式 地 转换 为 整数 ， 于 是 就 会 得 到 
10。 而 在 为 一 些 语言 中 (比如 JavaScript〉， 整 数 5 
可 能 会 被 转换 为 字符 串 ， 于 是 束 会 得 到 '55'。 而 在 
这 一 点 上 ，Python 可 以 被 认为 是 一 种 强 类 型 语言 ， 
也 束 是 说 ， 所 有 对 象 都 有 一 个 特定 的 类 型 (或 
类 ) ， 隐 式 转 换 只 在 很 明显 的 情况 下 才 会 肥 生 ， 比 
如 下 面 这 样 : 


In [250]: a = 4.5 








In [251]: b= 2 


# 这 个 操作 是 字符 串 格 式 化 ， 稍 后 介绍 
In [252]: print 'a is %s, b is %s' % (type(a), type(b)) 
a is <type 'float'>, b is <type 'int'> 





In [253]: a / pb 
Out[253]: 2.25 


了 解 对 象 的 类 型 是 很 重要 的 。 要 想 编写 能 够 处 
理 多 个 不 同类 型 输入 的 函数 就 必须 了 解 有 天 类 型 的 


知识 。 通 过 isinstance 函 数 ， 你 可 以 检查 一 个 对 象 是 
否 是 某 个 特定 类 型 的 实例 : 





In [254]: 


In [255]: 
Out[255]: 


a = 5 


isinstance(a, int) 
True 


isinstance 可 以 接受 由 类 型 组 成 的 元 组 。 如 果 想 
检查 某 个 对 象 的 类 型 是 否 属于 元 组 中 所 指定 的 那 
些 : 


In [256]: 
In [257] : 
Out[257]: 
In [258] : 
Out[258]: 





a=5;b=4.5 
isinstance(a, (int, float)) 
True 

isinstance(b, (int, float)) 
True 


属性 和 方法 





Python 中 的 对 象 通常 都 既 有 属性 〈attribute， 即 
存储 在 该 对 象 “ 内 部 ”的 其 他 Python 对 象 ) 又 有 方法 
(method， 与 该 对 象 有 关 的 能 够 访问 其 内 部 数据 的 
函数 ) 。 它 们 都 能 通过 obj.attribute_name 这 样 的 语 





法 进行 访问 : 
In [1]: aa = 'foo' 


In [2]: a.<Tab> 


a.capitalize 


a.center 
a.count 
a.decode 


a.format a.isupper a.rindex a.st 
a.index a.join a.rjust a.Sw 
a.isalnum a.l1just a.rpartition a.ti 
a.isalpha a.lower a.rsplit a.tr 


a.encode a.isdigit a.lstrip a.rstrip a. uF 
a.endswith a.islower a.partiti a.split a.zf 
a.expandtabs a.isspace a.replace a.splitlines 
a.find a.istitle a.rfind a.startswith 


属性 和 方法 还 可 以 利用 getattr 函 数 通 过 名 称 进 
行 访 问 : 


>>> getattr(a, 'split') 
<function split> 


虽然 本 书 没 怎么 用 到 getattr 函 数 以 及 与 之 相关 
的 hasattr 和 setattr 函 数 ， 但 是 它们 还 是 很 实用 的 ， 尤 
其 是 在 编写 通用 的 、 可 复 用 的 代码 时 。 





< 鸭子 > 类 型 详 注 1 


一 般 来 说 ， 你 可 能 不 会 关心 对 象 的 类 型 ， 而 只 
是 想 知 道 它 到 底 有 没有 某 些 方法 或 行为 。 比 如 说 ， 
只 要 一 个 对 象 实 现 了 迭代 需 协 议 (iterator 
protocol) ， 你 残 可 以 确认 它 是 可 迭代 的 。 对 于 大 
部 分 对 象 而 言 ， 这 束 意 味 着 它 拥 有 一 个 _ iter_ 麻 
术 方 法 。 当 然 ， 还 有 一 个 更 好 一 些 的 验证 办 法 ， 即 
尝试 使 用 iter 函 数 : 

try: 

iter(obj) 
return True 


except TypeError: # 不 可 迭代 
return False 











对 于 字符 串 以 及 大 部 分 Python 集合 类 型 


人 一 


， 该 阴 


数 会 返回 True: 


In [260] : 
Out[260] : 


In [262] : 
Out[262]: 


isiterable('a string') In [261]: isiterable([1, 2, 
True Out[261]: True 


isiterable(5) 
False 





我 党 妾 在 编写 需要 处 理 多 类 型 输入 的 函数 时 用 
到 这 个 功能 。 还 有 一 种 常见 的 应 用 场景 : 编写 可 以 
接受 任何 序列 (列表 、 元 组 、ndarray) 或 迭代 右 的 
水 数 。 你 可 以 先 检查 对 象 是 不 是 列表 (或 NumPy 数 
组 ) ， 如 果 不 是 ， 就 将 其 转换 成 是 : 


if not isinstance(x, list) and isiterable(x): 
x = list(x) 





引入 (import) 


在 Python 中 ， 模 块 (module) 就 是 一 个 含有 也 
数 和 变量 定义 以 及 从 其 他 .py 文件 引入 的 此 类 东西 
的 .py 文件 。 假 设 我 们 有 下 和 面 这 样 一 个 模块 : 


# some_module.py 
PI = 3.14159 


def f(x): 


return x + 2 


def g(a, b): 
return a + b 


如 果 想 要 引入 some_module.py 中 定义 的 变量 和 
为 数 ， 我 们 可 以 在 同一 个 目录 下 创建 另 一 个 文件 : 


import some_module 
result = some_ module.f(5) 
pi = some_module.PI 


还 可 以 号 成 这 样 : 


from some_ module import f, g, PI 
result = g(5, PI) 


通过 as 关 键 字 ， 你 可 以 引入 不 同 的 变量 名 "下 


import some_module as sm 
from some_ module import PI as pi, g as gf 


ri 
r2 


sm.f(pi) 
gf(6, pi) 


二 元 运算 和 从 和 比较 运算 符 


大 部 分 二 元 数学 运算 和 比较 运算 都 跟 我 们 想象 
中 的 一 样 : 
In [263]: 5 -7 In [264]: 12 + 21.5 
Out[263]: -2 Out[264]: 33.5 


In [265]: 5 <= 2 
Out[265]: False 


表 A-1 中 列 出 了 所 有 可 用 的 二 元 运算 符 。 


要 判断 两 个 引用 是 否 指 癌 同 一 个 对 象 ， 可 以 使 
用 is 关 键 字 。 如 果 想 判断 两 个 引用 是 否 不 是 指 癌 同 
一 个 对 象 ， 则 可 以 使 用 is not: 


In [266]: a = [1 2, 3] 











In [267]: b= a 





# 注意 ，1List 函 数 始终 会 创建 新 列表 
In [268]: c = list(a) 


In [269]: a is b 
Out[269]: True 


In [270]: a is not c 
Out[270]: True 


主意 ， 这 跟 比 较 运 算 "==" 不 是 一 回 事 ， 因 为 对 
于 上 面 这 A 我 们 将 会 得 到 : 


In [271]: a == c 
Out[271]: True 





is 和 is not 和 党 常用 于 判断 变量 是 否 为 None， 因 为 
None 的 实例 只 有 一 个 : 
In [272]: a = None 


In [273]: a is None 
Out[273]: True 


表 A-1: 二 元 运算 符 


运算 
a+b 
a-b 
a™b 
a/b 
a//b 
加 全 昌 
a&b 
alb 


awib 


a == 
al=b 
ar<=:B, a 6b 
a bs Seb 
aisb 


aisnotb 


说 明 

a 加 b 

a 减 b 

a 乘 以 b 

a 除 以 b 

a 除 以 b 后 向 下 圆 整 ， 丢 痉 小 数 部 分 

a 的 b 次 方 

如 果 a 和 b 均 为 True， 则 结果 为 True。 对 于 整数 ， 执 行 按 位 与 操作 

如 果 a 和 b 任 何 一 个 为 True， 则 结果 为 TTue。 对 于 整数 ,执行 按 位 或 操作 
对 于 布尔 值 ， 如 果 a 或 bp 为 True (但 不 都 为 True) ， 则 结果 为 True。 对 于 
整数 ， 执 行 按 位 异 或 操作 

如 果 a 等 于 p， 则 结果 为 True 

如 果 a 不 等 于 p， 则 结果 为 True 

如 果 a 小 于 等 于 (或 小 于 ) b， 则 结果 为 True 

如 果 a 大 于 (或 大 于 等 于 ) b， 则 结果 为 True 

如 果 引 用 a 和 b 指 向 同一 个 Python 对 象 ， 则 结果 为 True 

如 果 引 用 a 和 b 指 向 不 同 的 Python 对 象 ， 则 结果 为 True 





严格 与 佑 情 


无 论 使 用 什么 编程 语言 ， 都 必须 了 解 表达 陈 是 
何 时 被 求 值 的 。 看 看 下 面 这 两 个 简单 的 表达 式 : 


b 
a 


十 1 


a 
d 


* 有 


5 
C 


在 Python 中 ， 只 要 这 些 语句 被 求 值 ， 相 关 计 算 
就 会 立即 《也 就 是 严格 ) 发 生 ，d 的 值 会 被 设置 为 


30。 而 在 另 一 种 编程 范式 中 《比如 Haskell 这 样 的 纯 
函数 编程 语言 ，，d 的 值 在 被 使 用 之 前 是 不 会 被 计 
算出 来 的 。 这 种 将 计算 推迟 的 思想 通常 称 为 延 公 计 
算 (lazy evaluation 53) 。 而 Python 是 一 种 非常 严 
格 的 〈 急 性 子 ) 语言 。 几 乎 在 任何 时 候 ， 计 算 过 程 
和 表达 式 都 是 立即 求 值 的 。 即 使 是 在 上 面 那个 徐 单 
， 也 是 先 计 算 b *c 的 结果 然后 再 将 其 与 a 加 
Cc 来 办 ]。 


有 一 些 Python 拉 术 〈 尤 其 是 用 到 碗 代 占 和 生成 
和 硕 的 那些 ) 可 以 用 于 实现 延迟 计算 。 在 数据 密集 型 
应 用 中 ， 当 执行 一 些 负 三 非 常 蝇 的 计算 时 (这 种 情 
况 不 太 多 ) ， 这 些 技术 就 能 派 上 用 场 了 。 











可 变 和 不 可 变 的 对 象 


大 部 分 Python 对 象 是 可 变 的 Cmutable) ， 比 如 
列表 、 字 典 、NumPy 数 组 以 及 大 部 分 用 户 自 定义 类 
型 (类 ) 。 也 就 是 说 ， 它 们 所 包含 的 对 象 或 值 是 可 
以 被 修改 的 。 


In [274]: a_list = ['foo', 2, [4, 5]] 





In [275]: a_list[2] = (3, 4) 


In [276]: a_list 
Out[276]: ['foo', 2, (3, 4)] 








而 其 他 的 〈 如 字符 串 和 元 组 等 ) 则 是 不 可 变 的 
Cimmutable) 4., 
In [277]: a tuple = (3, 5, (4, 5)) 
In [278]: a_tuple[1] = 'four， 
TypeError Tracebacl (dat Yece 
<ipython-input-278-b7966a9ae6f1> in <module>() 


---->1a tuple[1] = 'four' 
TypeError: 'tuple' object does not support item assignment 


注意 ， 仅 仅 因 为 “可 以 修改 某 个 对 象 ? 并 不 代 
表 “ 束 该 那么 做 ”"。 这 种 行为 在 编程 中 也 叫做 副作用 
(side effect) 。 例 如 ， 在 编写 一 个 函数 时 ， 任 何 副 
作用 都 应 该 通过 该 函数 的 文档 或 注释 明确 地 告知 用 
户 。 即 使 可 以 使 用 可 变 对 象 ， 我 也 建议 尽量 避免 副 
作用 且 注 重 不 变性 (immutability〉。 


标量 类 型 





Python 有 一 些 用 于 处 理 数值 数据 、 字 符 串 、 布 
尔 值 〈True 或 False) 以 及 日 期 /时 间 的 内 置 类 型 。 表 
A-2 列 出 了 主要 的 标量 类 型 。 后 面 我 们 将 单独 讨论 
日 期 /时 间 的 处 理 ， 因 为 它们 是 由 标准 库 中 的 
datetime 模 块 提供 的 。 


表 A-2: 标准 的 Python 标量 类 型 


类 型 说 明 

None Python 的 “null” 值 (None 只 存在 一 个 实例 对 象 ) 

str 字符 串 类 型 。Python 2.x 中 只 有 AScClI 值 ， 而 Python 3 中 则 是 Unicode 
unicode Unicode 字 符 串 类 型 

float 双 精 度 (64 位 ) 浮 点 数 。 注 意 ， 这 里 没有 专门 的 double 类 型 

bool True 或 False 

int 有 符号 整数 ， 其 最 大 值 由 平台 决定 

long 任意 精度 的 有 符号 整数 。 大 的 int 值 会 被 自动 转换 为 long 





数值 类 型 


用 于 表示 数字 的 主要 Python 类 型 是 int 和 float。 
能 被 保存 为 int 的 整数 的 大 小 由 平台 决定 (是 32 位 还 
是 64 位 ) ， 但 是 Python 会 自动 将 非常 大 的 整数 转换 
为 long， 它 可 以 存储 任意 大 小 的 整数 。 


In [279]: ival = 17239871 


In [280]: ival ** 6 
Out[280]: 26254519291092456596965462913230729701102721L 


浮 点 数 会 被 表示 为 Python 的 float 类 型 。 浮 点 数 
会 被 保存 为 一 个 双 精 度 〈64 位 ) 值 。 它 们 也 可 以 用 
科学 计数 法 表示 : 


In [281]: fval = 7.243 





In [282]: fval2 = 6.78e-5 





在 Python 3 中 ， 整 数 除法 除 不 尽 时 束 会 产生 一 
个 浮 点 数 : 


In [284]: 3 7 2 
Out[284]: 1.5 


在 Python 2.7 及 以 下 版 本 中 《未 些 读者 现在 用 
的 可 能 就 是 :5) ， 只 要 将 下 面 这 条 怪 模 怪 样 的 语 
句 添 加 到 目 定 义 模 块 的 顶部 即 可 修改 这 个 默认 行 
为 : 


from future_ _ import division 
如 果 没 加 这 句 的话 ， 你 也 可 以 显 式 地 将 分 母 转 
换 成 浮 点 数 定 汪 6， 


In [285]: 3 / float(2) 
Out[285]: 1.5 


要 得 到 C 风 格 的 整数 除法 (如 果 除 不 尽 ， 就 丢 
弃 小 数 部 分 ) ， 使 用 除 后 圆 整 运算 符 〈/) 即 可 : 


In [286]: 3 // 2 
Out[286]: 1 


复数 的 虚 部 是 用 j 表 示 的 : 


In [287]: cval = 1 + 2] 











In [288]: cval * (1 - 2j) 
Out[288]: (5+0j) 


字符 串 


很 多 人 者 是 因为 Python 强大 而 灵活 的 字符 串 处 
理 能 力 才 使 用 它 的 。 编 写字 符 串 字面 量 时 ， 既 可 以 
用 单 引 号 〈') 也 可 以 用 双 引 号 〈") : 











"one way of writing a String 
"another way" 


对 于 带 有 换行 符 的 多 行 字符 串 ， 可 以 使 用 三 重 
引号 〈 即 "或 "") : 


C 二 tr 
This is a longer string that 
spans multiple lines 


a 
b 














Python 字 符 串 是 不 可 变 的 。 要 修改 字符 串 束 只 
能 创建 一 个 新 的 : 


In [289]: a = 'this is a String 


In [290]: a[10] = 'f' 

TypeError Traceback (most rece 
<ipython-input-290-5ca625d1ie504> in <module>() 

---->1 a[1i0] = "ff'" 

TypeError: 'str' object does not Support item assignment 


In [291]: b = a.replace('string', 'longer string') 


In [292]: b 
Out[292]: 'this is a longer string' 


许多 Python 对 象 都 可 以 用 st 函数 转换 为 字符 
捉 : 


In [293]: a = 5.6 In [294]: s = str(a) 
In [295]: s 
Out[295]: '5.6' 
由 于 学 符 串 其 实 是 一 串 字 符 序 列 ， 因 此 可 以 被 
当做 某 种 序列 类 型 (如 列表 、 元 组 等 ) 进行 处 理 : 


In [296]: s = ' python， In [297]: list(s) 
Out[297]: ['p', 'y', 't', 'h', 'c 











In [298]: s[:3] 
Out[298]: :pyt， 


反 和 斜 枉 〈\) 是 转 义 符 (escape character) ， 世 
束 是 说 ， 它 可 用 于 指定 特殊 字 答 (比如 新 行 \n 或 
unicode 字 符 ) 。 要 编写 市 有 有 反 冬 村 的 字符 串 字 面 
量 ， 也 需要 对 其 进行 转 义 : 


In [299]: s = '12\\34" 














In [300]: print s 
12\34 


如 果 字 符 串 带 有 很 多 反 冬 杠 且 没 有 特殊 字符， 
你 融会 及 现 这 个 办 法 很 容易 让 人 抓 狂 。 笠 运 的 是 ， 
你 可 以 在 字符 串 最 左边 引 写 的 前 面 加 上 r， 它 表示 
所 有 字符 应 该 按照 原本 的 样子 进行 解释 : 














In [301]: s = r'this\has\no\special\characters' 


In [302]: s 
Out[302]: 'this\\has\\no\\special\\characters' 


将 两 个 字符 串 加 起 来 会 产生 一 个 新 字符 串 : 


In [303]: a = 'this is the first half ' 











In [304]: b = 'and this is the second half' 


In [305]: a + b 
Out[305]: 'this is the first half and this is the second half' 


字符 串 格 式 化 是 为 一 个 重要 的 主题 。Python 3 
带 来 了 一 些 新 的 字符 串 格 式 化 手段 ， 这 里 我 简要 说 
明 一 下 其 主要 机 制 。 以 一 个 % 开 头 且 后 面 跟着 一 个 
或 多 个 格式 字符 的 字符 串 是 需要 插入 值 的 目标 〈 这 
人 。 看 看 下 面 这 个 
字符 串 : 














In [306]: template = '%.2f %s are worth $%d' 


在 这 个 字符 串 中 ，%s 表 示 将 参数 格式 化 为 字符 
串 ，%.2f 表 示 一 个 带 有 2 位 小 数 的 数字 ，%d 表 示 一 
个 整数 。 要 用 实 参 替换 这 些 格式 化 形 参 ， 需 要 用 到 
二 元 运算 符 % 以 及 由 值 组 成 的 元 组 : 


In [307]: template % (4.5560, 'Argentine Pesos', 1) 
Out[307]: '4.56 Argentine Pesos are worth $1' 


字符 串 格 式 化 是 一 个 很 大 的 主题 ， 控 制 值 在 结 








打字 符 串 中 的 格式 化 效果 的 方式 非常 多 。 我 建议 你 
在 网 上 多 找 一 些 有 关于 此 的 资料 来 看 看 。 

这 里 之 所 以 要 专门 讨论 通用 字符 串 处 理 ， 是 因 
为 它 有 关于 数据 分 析 ， 更 多 细节 请 参阅 第 7 章 。 


布尔 值 








Python 中 的 两 个 布尔 值 分 别 写作 True 和 False。 
比较 运算 和 条 件 表 达 式 都 会 产生 True 或 False。 布 尔 
值 可 以 用 and 和 or 关键 字 进 行 连接 : 


In [308]: 
Out[308]: 


In [309]: 
Out[309]: 


True and True 
True 


False or True 
True 


几乎 所 有 内 置 的 Python 类 型 以 及 任何 定义 了 
nonzero_ ”魔术 方法 的 类 都 能 在 话语 句 中 被 解释 为 
True 或 False: 


In [310] : 


a= [1，2，3|] 
if a: 


print 'I found something!' 


I found something'! 


In [311]: 
,..!: if not b: 


Empty'! 


b= | 


print ‘Empty!’' 


Python 中 大 部 分 对 象 都 有 真 假 的 概念 。 比 如 
说 ， 如 果 衬 序列 《列表 、 字 典 、 元 组 等 ) 用 于 控制 
流 〈 就 像 上 面 的 空 列 表 b) 就 会 被 当做 False 处 理 。 
要 想 知 道 某 个 对 象 究 葛 会 被 强制 转换 成 哪个 布尔 
值 ， 使 用 bool 函 数 即 可 : 


In [312]: 
Out[312]: 


In [313]: 
Out[313]: 


In [314]: 
Out[314]: 


类 型 转换 


bool([]), bool([1, 2, 3]) 
(False, True) 


bool('Hello world!'), bool('') 
(True, False) 


bool(0), bool(1) 
(False, True) 


str、bool、int 以 及 float 等 类 型 也 可 用 作 将 值 转 
换 成 该 类 型 的 函数 : 


In [315]: s = '3.14159' 
In [316]: fval = float(s) In [317]: type(fval) 
Out[317]: float 
In [318]: int(fval) In [319]: bool(fval) In [320] 
Out[318]: 3 Out[319]: True Out[320] 
None 


None 是 Python 的 空 值 类 型 。 如 果 一 个 函数 没有 
显 式 地 返回 值 ， 则 隐 式 返回 None。 





In [321]: a = None 

In [322]: a is None 
Out[322]: True 

In [323]: b = 5 

In [324]: b is not None 
Out[324]: True 


None 还 是 函数 可 选 参数 的 一 种 币 见 默认 仁 : 


def add_and_maybe_multiply(a, b, c=None): 
result = a + b 


if c is not None: 
result = resuljt * c 


return result 


我 们 要 牢记 ，None 不 是 一 个 保留 关键 字 ， 它 只 
是 NoneType 的 一 个 实例 而 已 。 





日 期 和 时 间 


Python 内 置 的 datetime 模 块 提供 了 datetime、 
date 以 及 time 等 类 型 。datetime 类 型 是 用 得 最 多 的 ， 
它 合 并 了 保存 在 date 和 time 中 的 信息 : 


In [325]: from datetime import datetime, date, time 











In [326]: dt = datetime(2011, 10, 29, 20, 30, 21) 


In [327]: dt.day In [328]: dt.minute 
Out[327]: 29 Out[328]: 30 


给 定 一 个 datetime 实 例 ， 你 可 以 通过 调用 其 date 
和 time 方 法 提取 相应 的 date 和 time 对 象 : 


In [329]: dt.date() In [330]: dt.time() 
Out[329]: datetime.date(2011, 10, 29) Out[330]: datetime. 


strftime 方 法 用 于 将 datetime 格 式 化 为 字符 串 : 


In [331]: dt.strftime('%m/%d/%Y %H:%M  ) 
Out[331]: '10/29/2011 20:30' 


字符 串 可 以 通过 strptime 隙 数 转 换 (解析 ) 为 
datetime 对 象 : 





In [332]: datetime.strptime('20091031', '%Y%m%d ' ) 
Out[332]: datetime.datetime(2009, 10, 31, 0, 0) 


完整 的 格式 化 定义 请 参见 表 10-2。 


在 对 时 间 序 列 数据 进行 聚合 或 分 组 时 ， 可 能 需 
符 换 datetime 中 的 一 些 字 段 。 例 如 ， 将 分 和 秒 字 
役 划 换 为 0， 并 产生 一 个 新 对 象 : 


In [333]: dt.replace(minute=0, second=0) 
Out[333]: datetime.datetime(2011, 10, 29, 20, 0) 


两 个 datetime 对 象 的 差 会 产生 一 个 
datetime.timedelta 类 型 . 











In [334]: dt2 = datetime(2011, 11, 15, 22, 30) 


In [335]: delta = dt2 - dt 
In [336]: delta In [337]: type(delt 
Out[336]: datetime.timedelta(17, 7179) Out[337]: datetime. 
将 一 个 timedelta 加 到 一 个 datetime 上 会 产生 一 个 
新 的 datetime: 


In [338]: dt 
Out[338]: datetime.datetime(2011, 10, 29, 20, 30, 21) 


In [339]: dt + delta 
Out[339]: datetime.datetime(2011, 11, 15, 22, 30) 


控制 流 
计 、elif 和 else 


f 语 句 是 一 种 最 第 见 的 控制 流 语 句 类 型 。 它 用 
于 判断 一 个 条 件 ， 如 果 为 True， 则 执行 么 跟 其 后 的 
代码 块 : 


if x < 0: 
print 'It's negative' 


一 条 [语句 可 以 跟 上 一 个 或 多 个 elif 块 以 及 一 
个 “滴水 不 漏 ? 的 else 块 《〈 如 果 所 有 条 件 都 为 
False) : 


if x < 0: 
print 'It's negative' 
elif x == 0: 


print "Equal to zero' 
elif 09<X< 5: 
print "Positive but smaller than 5， 
else: 
print "Positive and larger than or equal to 5' 


如 果 任 何 一 个 条 件 为 True， 则 其 后 的 elif 或 else 
块 就 不 会 执行 。 对 于 用 and 或 or 组 成 的 复合 条 件 ， 各 
条 件 是 按 从 左 到 右 的 顺序 求 值 的 ， 而 且 是 短路 型 
的 : 


In [340]: a=5;b=7 





In [341]: c=8;d=4 
In oe if a<borc>d: 


: print "Made it' 
Made it 


在 本 例 中 ， 比 较 运 算 c>d 是 不 会 被 计算 的 ， 
为 第 一 个 比较 运算 为 True。 


for 循 环 





for 循 环 用 于 对 集合 《比如 列表 或 元 组 ) 或 迭代 
器 进行 迭代 。for 循 环 的 标准 语法 是 : 


for value in collection: 
# 对 value 做 一 些 处 理 


continue 关 键 字 用 于 使 for 循 环 提 前 进入 下 一 次 
迭代 【〔 即 跳 过 代码 块 的 剩余 部 分 ) 。 看 看 下 面 这 上 段 




















代码 ， 其 功能 是 对 列表 中 的 整数 求 和 并 跳 过 None 
值 : 


sequence = [1, 2, None, 4, None, 5|] 
total = 0 
for value in sequence: 

if value is None: 








continue 
total += Value 


break 关 键 字 用 于 使 for 循 环 完全 退出 。 下 面 这 
段 代 码 用 于 对 列表 的 元 素 求 和 ， 巡 到 5 就 退出 : 

sequence = [1, 2, 0, 4, 6, 5, 2, 1] 
total until] 5 = 0 
for value in sequence: 

if value == 5: 

break 
total _ until 5 += Value 


后 面 我 们 还 会 看 到 ， 如 果 和 集合 或 达 代 紫 有 的 元 尼 
征 序列 关 型 《比如 元 组 或 列表 ) ， 那 么 还 可 以 非常 
方便 地 将 这 些 元 素 拆散 成 for 语 句 中 的 多 个 变量 : 


for a, b, c in iterator: 


# 做 一 些 处 理 




















while 循 环 


while 循 环 定义 了 一 个 条 件 和 一 个 代码 块 ， 只 要 
条 件 不 为 False 或 循环 没有 被 break 显 式 终 止 ， 则 代 
码 块 将 一 直 不 断 地 执行 下 去 : 


x = 256 
total = 0 
while x > 0: 
if total > 500: 


break 
total += x 
x=x//2 


pass 


pass 古 Python 中 的 “ 空 操 作 ” 语 句 。 它 可 以 被 用 
在 那些 没有 任何 功能 的 代码 块 中 。 由 于 Python 是 根 
据 空 日 符 划 分 代码 块 的 ， 所 以 它 的 存在 是 很 有 必要 
的 : 











if x < 0: 
print ee 
elif x == 
# 0 在 这 里 放 点 代码 
pass 
else: 


print 'positive!' 


在 开 友 一 个 新 功能 时 ， 常 第 会 将 pass 用 作 代 人 码 
中 的 后 位 符 : 


def f(x, z): 
# To 实现 这 个 函数 ! 
pass 


异 第 处 理 





优雅 地 处 理 Python 错 误 或 异常 是 构建 健壮 程序 


的 重要 环节 。 在 数据 分 析 应 用 中 ， 许 多 函数 只 对 特 
定 类 型 的 输入 有 效 。 例 如 ，Python 的 float 函 数 可 以 
将 字符 串 转 换 为 浮 点 数 ， 但 是 如 果 输 入 值 不 正确 吏 
会 产生 ValueError: 





In [343]: float('1.2345") 
Out[343]: 1.2345 


In [344]: float('something') 


ValueError Traceback (most rece 
<ipython-input-344-439904410854> in <module>() 

--> 1 float('something') 
ValueError: could not convert string to float: something 


假设 我 们 想 要 编写 一 个 在 出 错时 能 优雅 地 返回 
输入 参数 的 改进 版 foat 函 数 。 我 们 可 以 编写 一 个 新 
国 数 ， 并 把 对 float 函 数 的 调用 放 在 一 个 try/except 块 
中 : 


def es float (x): 
‘return float(x) 


except.: 
return x 


只 有 当 float(x) 引 发 异常 时 ，except 块 中 的 代码 
才 会 被 执行 : 
In [346]: attempt_float('1.2345') 
Out[346]: 1.2345 


In [347]: attempt_float('something') 
Out[347]: 'something' 


你 可 能 已 经 注意 到 了 ，float 还 可 以 引发 
ValueError 以 外 的 异 稼 : 


In [348]: float((1, 2)) 

TypeError Traceback (most rece 
<ipython-input-348-842079ebb635> in <module>() 

----> 1 float((1, 2)) 

TypeError: float() argument must be a string or a number 


你 可 能 只 希望 处 理 ValueError， 因 为 
TypeError 〈 输 入 参数 不 是 字符 串 或 数值 ) 可 能 意味 
着 你 的 程序 中 存在 合法 性 bug。 要 达到 这 个 目的 ， 
在 except 后 面 加 上 异常 类 型 即 可 : 


def attempt_float(x): 
try: 
return float(x) 
except ValueError: 
return x 


于 是 我 们 残 有 了 : 


In [350]: attempt_float((1, 2)) 
TypeError Traceback (most rece 
<ipython-input-350-9bdfd730cead> in <module>() 
----> 1 attempt_float((1, 2)) 
<ipython-input-349-3e06b8379b6b> in attempt_float(x) 
1 def attempt_float(x): 














2 try: 

= return float(x) 
4 except ValueError : 
5 return X 


TypeError: float() argument must be a String or a number 





只 项 编写 一 个 由 异常 类 型 组 成 的 元 组 〈 圆 括号 
征 必需 的 ) 即 可 捕获 多 个 异 币 : 


def attempt_float(x): 
try : 
return float(x) 
except (TypeError，ValueError ) : 
return X 


有 时 你 可 能 不 想 处 理 任 何 异 钊 ， 而 只 是 希望 有 
一 段 代码 不 管 try 据 代码 成 功 与 否 都 能 被 执 行 。 使 用 
finally 即 可 达到 这 个 目的 : 


f = open(path, 'w') 


try: 
write to_ file(f) 
finally: 
f.close() 


这 里 ， 文 件 句 柄 f 始 终 部 会 被 关闭 。 同 理 ， 你 
也 可 以 让 某 些 代 码 只 在 try 块 成 功 时 执行 ， 使 用 else 
如 J: 


f = open(path, 'w') 


try: 

write to_ file(f) 
except: 

print 'Failed' 
else: 

print 'Succeeded' 
finally: 

f.close() 


range 和 Xrange 





range 函 数 用 于 产生 一 组 间 隅 平均 的 整数 : 


In [352]: range(10) 
Out[352]: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 


可 以 指定 起 始 值 、 结 束 值 以 及 步 长 等 信息 : 


In [353]: range(0, 20, 2) 
Out[353]: [0, 2, 4, 6, 8, 10, 12, 14, 16, 18] 


如 你 所 见 ，range 所 产生 的 整数 不 包括 末端 值 。 
range 季 用 于 按 索 引 对 序列 进行 迭代 : 
seq = [1，2，3，4] 


for i in range(len(sedq)): 
val = seq[il] 


对 于 非常 长 的 范围 ， 建 议 使 用 xrange， 其 参数 
跟 range 一 样 ， 但 它 不 会 预先 产生 所 有 的 值 并 将 它们 
保存 到 列表 中 可 能 会 非常 大 ) ， 而 是 返回 一 个 用 
于 逐个 产生 整数 的 迭代 器 。 下 面 这 段 代 码 用 于 对 0 
到 9999 之 间 所 有 3 或 5 的 倍数 的 数字 求 和 : 

TO i 站 xrange(10000): 
# % 是 求 模 运算 符 
if x % 3 ys or x % 5 == 0: 


注意 : 在 Python 3 中 ，range 始 终 返 回 迭 代 器 ， 





因此 也 就 没 必要 使 用 xrange 函 数 了 。 
= 


Python 的 三 元 表达 式 (ternary expression) 人 允许 
WR 到 一 行 或 一 个 表达 式 
中 。 其 语法 如 下 所 示 : 


value = true-expr if condition else false-expr 


其 中 的 true-exzpr 和 false-expr 可 以 是 任何 Python 
表达 式 。 它 跟 下 面 这 种 见长 格式 的 效果 一 样 : 


if condition: 

value = true-expr 
else: 

value = false-expr 


下 面 是 一 个 具体 点 的 例子 : 


In [354]: X = 5 





In [355]: 'Non-negative' if x >= 0 else 'Negative' 
Out[355]: 'Non-negative' 


跟 if-else 块 一 样 ， a 一 个 表达 式 会 做 求 值 。 
虽然 这 可 能 会 引诱 你 总 是 使 用 三 元 表达 式 去 浓缩 你 
的 代码 ， 但 要 意识 到 ， 如 果 条 件 以 及 true 和 false 表 
达 式 非常 复杂 ， 束 可 能 会 牺牲 可 读 性 。 








数据 结构 和 序列 


Python 的 数据 结构 简单 而 强大 。 精 通 其 用 法 是 
成 为 专家 级 Python 程序 员 的 关键 环节 。 
元 组 


元 组 (tuple〉 是 一 种 一 维 的 、 定 长 的 、 不 可 变 
的 Python 对 象 序列 。 最 简单 的 创建 方式 是 一 组 以 各 
写 隅 开 的 值 : 


In [356]: tup = 4, 5, 6 








In [357]: tup 
Out[357]: (4, 5, 6) 


在 更 复杂 的 表达 式 中 定义 元 组 时 ， 管 常 需要 用 
册 括 写 将 值 围 起 来 ， 比 如 下 面 这 个 例子 ， 它 创建 了 
一 个 由 元 组 组 成 的 元 组 : 


In [358]: nested tup = (4, 5, 6), (7, 8) 








In [359]: nested_ tup 
Out[359]: ((4, 5, 6), (7, 8)) 


通过 调用 tuple， 任 何 序 列 或 迭代 此 痢 可 以 被 转 
换 为 元 组 : 


In [360]: tuple([4, 60, 2]) 


out[360]: (4, 0, 2) 
In [361]: tup = tuple('string') 
In [362]: tup 
Out[362]: ('s', 't', 'r', 'i', 'n', 'g') 
跟 大 部 分 其 他 序列 类 型 一 样 ， 元 组 的 元 素 也 可 
以 通过 方 括号 0) 进行 访问 。 跟 C、C++、Java 之 
类 的 语言 一 样 ，Python 中 的 序列 也 是 从 0 开始 索引 
的 : 
In [363]: tup[0] 
Out[363]: 'S' 
虽然 存储 在 元 组 中 的 对 象 本 吴 可 能 是 可 变 的 ， 
但 一 旦 创建 完毕 ， 存 放 在 各 个 插 枢 中 的 对 象 就 不 能 
再 科 修 改 了 : 


In [364]: tup = tuple(['foo'，[1，2]，True]) 

















In [365]: tup[2] = False 


TypeError Traceback (most rece 
<ipython-input-365-c7308343b841> in <module>() 

----> 1 tup[2] = False 

TypeError: 'tuple' object does not support item assignment 


# 不 过 
In [366]: tup[1].append(3) 


In [367]: tup 
Out[367]: ('foo', [1, 2, 3], True) 








元 组 可 以 通过 加 号 +) 运算 符 连接 起 来 以 产 
生 更 长 国 元 组， 


In [368]: (4, None, 'foo') + (6, 0) + ('bar',) 
Out[368]: (4, None, 'foo', 6, 0, 'bar') 


跟 列 表 一 样 ， 对 一 个 元 组 乘 以 一 个 整数 ， 相 当 
于 是 连接 该 元 组 的 多 个 副本 。 


In [369]: ('foo', 'bar') * 4 
Out[369]: ('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'b 


注音， 对 和 象 本 号 古 不 会 被 复制 的 ， 这 里 涉及 的 
只 是 它们 的 引用 而 已 。 








元 组 拆 包 








如 果 对 元 组 型 变量 表达 式 进 行 赋值 ，Python 束 
会 尝试 将 等 号 右 侧 的 值 进 行 拆 包 (unpacking): 


In [370]: tup = (4, 5, 6) 








In [371]: a, b, c = tup 
In [372]: b 
Out[372]: 5 


即使 是 舱 套 元 组 也 能 被 拆 包 : 
In [373]: tup = 4, 5, (6, 7) 
In [374]: a, b, (c, d) = tup 


In [375]: d 
Out[375]: 7 





利用 该 功能 可 以 非常 轻松 地 交换 变量 名 。 
任务 在 其 他 许多 语言 中 可 能 是 下 面 这 个 样子 : 


KE 
> 





变量 拆 包 功能 第 用 于 对 由 元 组 或 列表 组 成 的 序 
列 进行 迭代 : 
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)] 
In seq: 


for a, b, c 
pass 


男 一 个 常见 用 法 是 处 理 从 函数 中 返回 的 多 个 
值 。 稍 后 将 详细 介绍 。 
元 组 方法 


由 于 元 组 的 大 小 和 内 存 不 能 被 修改 ， 所 以 其 实 
例 方 法 很 少 。 最 有 用 的 是 count《〈 对 列表 也 是 如 
此 ) ， 它 用 于 计算 指定 值 的 出 现 次 数 : 


in [376]: a = (1, 2, 2, 2, 3, 4, 2) 








In [377]: a.count(2) 
Out[377]: 4 


列表 


跟 元 组 相 比 ， 列 表 〈list) 是 变 长 的 ， 而 且 其 内 
容 也 是 可 以 修改 的 。 它 可 以 通过 方 括号 〈[) 或 list 
函数 进行 定义 : 
In [378]: a_list = [2, 3, 7, Nonel] 
In [379]: tup = ('foo', 'bar', 'baz') 


In [380]: b_list = list(tup) In [381]: b_list 
Out[381]: ['foo', 'bar', 


In [382]: b_list[1] = 'peekaboo' In [383]: b_list 
Out[383]: ['foo', 'peeka 


列表 和 元 组 在 语义 上 是 差不多 的 ， 都 是 一 维 序 
列 ， 因 此 它们 在 许多 函数 中 是 可 以 互 换 的 。 





添加 和 移 除 元 素 


通过 append 方 法 ， 可 以 将 元 素 添 加 到 列表 的 末 
尾 : 


In [384]: b_list.append('dwarf') 


In [385]: b_list 
Out[385]: ['foo', 'peekaboo', 'baz', 'dwarf'] 


利用 insert 可 以 将 元 素 插 入 到 列表 的 指定 位 置 : 
In [386]: b_list.insert(1, 'red') 


In [387]: b_list 
Out[387]: ['foo', 'red', 'peekaboo', 'baz', 'dwarf'] 


警告 : insert 的 计算 量 要 比 append 大 ， 因 为 后 
续 的 引用 必须 被 移动 以 便 为 新 元 系 腾 地 方 。 


insert 的 逆 运 算是 pop， 它 用 于 移 除 并 返回 指定 
索引 处 的 元 素 : 


In [388]: b_list.pop(2) 
Out[388]: 'peekaboo' 


In [389]: b_list 
Out[389]: ['foo', 'red', 'baz', 'dwarf'] 


remove 用 于 按 值 删除 元 素 ， 它 找到 第 一 个 符合 
要 求 的 值 然 后 将 其 从 列表 中 删除 : 


In [390]: b_list.append('foo') 
In [391]: b_list.remove('foo') 


In [392]: b_list 
Out[392]: ['red', 'baz', 'dwarf', 'foo'] 


如 果 不 考 虑 (使 用 append 和 remove 时 的 ) 性 
能 ，Python 列 表 可 以 是 一 种 非常 不 错 的 “多 重 集 
合 ” 数 据 结构 。 


通过 in 关键 字 ， 你 可 以 判断 列表 中 是 个 含有 菏 
个 值 : 





In [393]: 'dwarf' in b_list 
Out[393]: True 





注意 ， 判 断 列 表 是 否 含 有 有 茶 个 值 的 操作 比 字典 
(dict) 和 集合 (set) 慢 得 多 ， 因 为 Python 会 对 列 
表 中 的 值 进行 线性 扫描 ， 而 另外 两 个 〈 基 于 哈 布 
表 ) 则 可 以 瞬间 完成 判断 。 





全 天 列表 


跟 元 组 一 样 ， 用 加 号 (+) 将 两 个 列表 加 起 来 
即 可 实现 合并 : 


In [394]: [4, None, 'foo'] + [7, 8, (2, 3)] 
Out[394]: [4, None, 'foo', 7, 8, (2, 3)] 





对 于 一 个 已 定义 的 列表 ， 可 以 用 extend 方 法 一 
次 性 添加 多 个 元 素 : 


In [395]: x = [4, None, 'foo'] 
In [396]: x.extend([7, 8, (2, 3)]) 


In [397]: x 
Out[397]: [4, None, 'foo', 7, 8, (2, 3)] 


注意 ， 列 表 的 合并 是 一 种 相当 颖 资源 的 操作 ， 
因为 必须 创建 一 个 新 列表 并 将 所 有 对 象 复制 过 去 。 
而 用 extend 将 元 素 附加 到 现 有 列表 (尤其 是 在 构建 
一 个 大 列表 时 ) 丈 会 好 很 多 。 因 此 ， 


everything = [] 
for chunk in list_of_lists: 
everything.extend(chunk) 





要 比 等 价 的 合并 操作 快 得 多 


everything = 
for chunk in list_of_lists: 
everything = everything + chunk 


排序 


调用 列表 的 sort 方 法 可 以 实现 就 地 排序 (无 需 
创建 新 对 象 ) : 


In [398]: a = [7, 2, 5, 1, 3] 
In [399]: a.sort() 


In [400]: a 
Out[400]: [1i, 2, 3, 5, 7] 
sort 有 几 个 很 不 错 的 选项 。 一 个 是 次 要 排序 
键 ， 即 一 个 能 够 产生 可 用 于 排序 的 值 的 函数 。 例 
如 ， 我 们 可 以 通过 长 度 对 一 组 字符 串 进行 排序 : 
In [401]: b= ['saw', 'small', 'He', 'foxes', "Six'] 
In [402]: b.sort(key=len) 


In [403]: b 
Out [403]: ['He', 'saw', 'Six', 'small', 'foxes'] 


二 分 搜索 及 维护 有 序列 表 
内 置 的 bisect 模 块 实现 了 二 分 查找 以 及 对 有 序 


列表 的 插入 操作 。bisect.bisect 可 以 找 出 新 元 素 应 该 
被 插入 到 哪个 位 置 才能 保持 原 列表 的 有 序 性 ， 而 
bisect.insort 则 确实 地 将 新 元 素 插 入 到 那个 位 置 上 
去 : 





In [404]: import bisect 

In [405]: c = [1, 2, 2, 2, 3, 4, 7] 
In [406]: bisect.bisect(c, 2) 
Out[406]: 4 

In [407]: bisect.bisect(c, 5) 
Out[407]: 6 

In [408]: bisect.insort(c, 6) 


In [409]: c 
Out[409]: [1, 2, 2, 2, 3, 4, 6, 7] 


警告 : bisect 模 块 的 函数 不 会 判断 原 列 表 是 否 
是 有 序 的 ， 因 为 这 样 做 的 开销 太 大 了 。 因 此 ， 将 它 
们 用 于 无 序列 表 虽 然 不 会 报错 ， 但 可 能 会 导致 不 正 
确 的 结果 。 


切片 
通过 切 卢 标记 法 ， 你 可 以 选取 序列 类 型 〈 数 


组 、 元 组 、NumPy 数 组 等 ) 的 子 集 ， 其 基本 形式 由 
索引 运算 符 〈[D) 以 及 传 入 其 中 的 start:stop 构 成 : 


In [410]: seq = [7, 2, 3, 7, 5, 6, 0, 1] 








In [411]: seq[1:5] 


out[411]: [2，3，7，5] 


切片 还 可 以 被 赋值 为 一 段 序 列 : 


In [412]: seq[3:4] = [6, 3] 


In [413]: sed 
out[413]: [7, 2, 3, 6, 3, 5, 6, 0, 1] 


由 于 start 索 引 处 的 元 素 是 被 包括 在 内 的 ， 而 
stop 索 引 处 的 元 素 是 未 被 包括 在 内 的 ， 所 以 结果 中 
的 元 系数 量 是 stop start。 


start 或 stop 都 是 可 以 省 略 的 ， 此 时 它们 分 别 默 
认为 序列 的 起 始 处 和 结尾 处 : 








In [414]: seq[:5] In [415]: seq[3:] 

Out[414]: [7, 2, 3, 6, 3] Out[415]: [6, 3, 5, 6, 0, 1 
负数 索引 从 序列 的 末尾 开始 切片: 

In [416]: seq[-4:] In [417]: seq[-6:-2] 

Out[416]: [5, 6, 0, 1] out[417]: [6, 3, 5, 6] 





切片 的 语法 需要 花 点 时 间 去 适应 ， 尤 其 是 当 你 
原来 用 的 是 R 或 MATLAB 时 。 图 A-2 形 象 地 说 明了 
正 整数 和 负 整 数 的 切片 过 程 。 


还 可 以 在 第 二 个 冒号 后 面 加 上 步 长 (step) 。 
比如 每 隅 一 位 取出 一 个 元 系 : 








In [418]: seq[::2] 
Out[418]: [7, 3, 3, 6, 1] 


在 这 里 使 用 一 1 是 一 个 很 巧妙 的 办 法 ， 它 可 以 
实现 列表 或 元 组 的 反 序 : 


In [419]: seq[::-1] 
out[419]: [1i, 0, 6, 5, 3, 6, 3, 2, 7] 





2 3 5 
ee 
和 TT 六 本 过 次 
者 名 浊 机 
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string[2:4] string[-5:-2] 














图 A-2: Python 的 切片 方式 
内 罩 的 序列 函数 


Python 有 一 些 很 不 错 的 序列 函数 ， 你 应 该 熟 钼 
它们 ， 只 要 有 机 会 就 用 。 


enumerate 


在 对 一 个 序列 进行 迭代 时 ， 常 常 需要 跟踪 当前 
项 的 索引 。 下 面 是 一 种 DIY 的 办 法 : 


i=0 


for value in collection: 


# 用 value 做 一 些 事情 


i += 1 








由 于 这 种 事情 很 常见 ， 所 以 Python 束 内 置 了 一 
个 enumerate 函 数 ， 它 可 以 逐个 返回 序列 的 (value) 


元 组 : 


for i, val 


# 用 value 做 一 些 事情 


ue in enumerate(collection): 








在 对 数据 进行 索引 时 ，enumerate 还 有 一 种 不 错 
的 使 用 模式 ， 即 求 取 一 个 将 序列 值 〈 假 定 是 唯一 
的 ) 映射 到 其 所 在 位 置 的 字典 。 


In [420] : 
In [421]: 


In [422] : 
Out[422]: 


sorted 


sorted 


请 州 习 : 


In [423]: 
Out[423]: 


In [424]: 


Out[424]: [ 


some_list = ['foo', 'bar', 'baz'] 
mapping = dict((v, i) for i, v in enumerate(some_lis 


mapping 
{'bar': 1, 'baz': 2, 'foo': 0} 


因数 可 以 将 任何 序列 返回 为 一 个 新 的 有 


sorted([7, 1, 2, 6, 0, 3, 2]) 
[9, 1, 2, 2, 3, 6, 7 


sorted('horse race') 
1 es 'a', "CG 'e'", 'e', 'h", “0, "es, 办 人 '"S 


种 种 将 sorted 和 set 结 合 起 来 使 用 以 得 到 一 个 由 
序列 中 的 唯一 元 素 组 成 的 有 序列 表 : 


In [425]: sorted(set('this is just some string')) 
Out[425]: [ 'e', 'g', 'h", '1i', 'j', 'm"', 'n', 'O', | 1 


Zip 


zip 用 于 将 多 个 序列 《列表 、 元 组 等 ) 中 的 元 
素 “ 配 对 ”， 从 而 产生 一 个 新 的 元 组 列表 : 


In [426]: seqi = ['foo', 'bar', 'baz'] 








In [427]: seq2 = ['one', 'two', 'three'l] 


In [428]: zip(seq1i, seq2) 
Out[428]: [('foo', 'one'), ('bar', 'two'), ('baz', 'three')] 


zip 可 以 接受 任意 数量 的 序列 ， 最 终 得 到 的 元 组 
数量 由 最 短 的 序列 决定 : 


In [429]: seq3 = [False, Truel] 


In [430]: zip(seqi, seq2, seq3) 
Out[430]: [('foo', 'one', False), ('bar', 'two', True)] 


zip 最 常见 的 用 法 是 同时 过 代 多 个 序列 ， 还 可 以 
结合 enumerate 一 起 使 用 : 


In [431]: for i, (a, b) in enumerate(zip(seqi, seq2)): 
ee print('%d: %s, %s' % (i, a, b 





0: foo, one 


1: bar, two 
2: baz, three 


对 于 “ 己 压 缩 的 ”(zipped) 序列 ，zip 还 有 一 个 
很 巧妙 的 用 法 ， Re (unzip) 。 
其 实 就 是 将 一 组 行 转换 为 一 组 列 。 其 语法 看 起 来 有 
点 神秘 : 


In [432]: pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'), 
('Schilling', 'Curt')] 








In [433]: first_names, last_names = zip(*pitchers) 


In [434]: first_names 
Out[434]: ('Nolan', 'Roger', 'Schilling') 


In [435]: last_names 
Out[435]: ('Ryan', 'Clemens', 'Curt') 


和 后 我 将 评 细 讨论 函数 调用 中 星 号 (*) 的 用 
法 。 其 实 它 相当 于 : 


zip(seq[0], seq[1], ..., seq[llen(seq) - 11]) 





reversed 


reversed 用 于 按 他 友 过 代 序列 中 的 元 系 : 


In [436]: list(reversed(range(10))) 
Out[436]: [9, 8, 7, 6, 5, 4, 3, 2, 1, 0] 


大 


字典 


字典 (dict) 可 算是 Python 中 最 重要 的 内 置 数 





据 结构 。 它 更 弟 见 的 名 字 是 哈 希 映射 《hash map ) 
或 相 联 数组 (associative array) 。 它 是 一 种 大 小 可 





变 的 键 值 对 集 ， 其 中 的 键 〈key) 和 值 “value) 都 
是 Python 对 象 。 创 建 字 典 的 方式 之 一 是 : 使 用 大 括 
号 《fj) 并 用 时 与 分 阳 键 和 值 。 


In [437]: 
In [438]: 


In [439]: 
Out[439]: 


访问 


empty_dict = {} 


: di={'a' : 'some value', 'b' : [1, 2, 3, 4]} 
d1 
{'a': 'some value', 'b': [1, 2, 3, 4]1} 





(以 及 搬入、 设置 ) 元 系 的 语法 跟 列 表 和 








元 组 是 一 样 的 : 


In [440]: 


In [441]: 
Out[441]: 


In [442]: 
Out[442]: 


di[7] = 'an integer' 


d1 

{7: 'an integer', 'a': 'some value', 'b': [1, 2, 3, 
di['b'] 

[1, 2, 3, 4] 


你 可 以 判断 字典 中 是 否 存在 东 个 键 ， 其 语法 跟 
在 列表 和 元 组 中 判断 是 否 存 在 录 个 值 是 一 样 的 : 


In [443]: 














'b' in di 


Out[443]: True 


使 用 del 关 键 字 或 pop 方 法 (删除 指定 值 之 后 将 
其 返回 ) 可 以 删除 值 : 


In [444]: di[5] = ‘some Value' 

In [445]: di['dummy'] = 'another value' 

In [446]: del d1[5] 

In [447]: ret = d1.pop('dummy') 

In [448]: ret 

Out[448]: 'another value' 

keys 和 values 方 法 分 别 用 于 获取 键 和 值 的 列 

表 。 虽 然 键 值 对 没有 特定 的 顺序 ， 但 这 两 个 函数 会 
以 相同 的 顺序 输出 键 和 值 : 


In [449]: di1.keys() In [450]: di.values() 
Out[449]: ['a', 'b', 7] Out[450]: ['some value', [1, 2, 


警告 : 如 果 你 正在 使 用 Python 3， 则 dict.keys0 
和 dict.values() 会 返回 迭代 器 而 不 是 列表 。 


利用 update 方 法 ， 一 个 字典 可 以 被 合并 到 男 一 
个 字典 中 去 : 


In [451]: di.update({'b' : 'foo', 'c' : 12}) 











In [452]: di 
Out[452]: {7: "an integer', 'a': 'some value', 'b': 'foo', 'cC' 


从 序列 类 型 创建 字典 





有 时 你 可 能 会 想 将 两 个 序列 中 的 元 系 两 两 配对 
地 组 成 一 个 字典 。 粗 略 分 析 一 下 之 后 ， 你 可 能 会 写 


出 这 样 的 代码 ; 


mapping = {} 
for key, value in zip(key_list, value_ list): 
mapping[key] = value 


由 于 字典 本 质 上 就 是 一 个 二 元 元 组 集 ， 所 以 我 
们 完全 可 以 用 dict 类 型 函数 直接 处 理 二 元 元 组 列 
表 : 


In [453]: mapping = dict(zip(range(5), reversed(range(5)))) 





In [454]: mapping 
Out[454]: {0: 4, 1: 3, 2: 2, 3: 1, 4: 0} 


和 后 我 们 将 讨论 有 关 字 典 推导 式 的 知识 ， 这 是 
构造 字典 的 万 一 种 优雅 的 方式 。 





鸭 认 什 
下 面 这 样 的 逻辑 很 常见 : 


if key in some_dict: 

value = some_dict[keyl] 
else: 

value = default_value 


其 实 dict 的 get 和 pop 方 法 可 以 接受 一 个 可 供 返 回 
的 默认 值 ， 于 是 ， 上 面 的 if-else 块 就 可 以 被 简单 地 
与 成 : 


value = some dict.get(key, default_value) 


如 果 key 不 存在 ， 则 get 默 认 返 回 None， 而 pop 
则 会 引发 一 个 异常 。 在 设置 值 的 时 候 ， 常 常会 将 字 
典 中 的 值 处 理 成 别 的 集 类 型 (比如 列表 )〉) 。 例 如 ， 
根据 首 字 母 对 一 组 单词 进行 分 类 并 最 终 产 生 一 个 由 
列表 组 成 的 字典 : 


In [455]: words = ['apple', 'bat', 'bar', 'atom', 'book'] 














In [456]: by_letter = {} 


In [457]: for word in words: 
a letter = word[0] 
if letter not in by_letter: 
by_letter[letter] = [word] 
else: 
by_letter[letter].append(word) 


In [458]: by_letter 
Out[458]: {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book'] 


字典 的 setdefault 方 法 刚好 能 达到 这 个 目的 。 上 
面 的 让 else 块 可 以 写成 : 


by_letter.setdefault(letter, [1).append(word) 


内 置 的 collections 模 块 有 一 个 叫做 defaultdict 的 ] 
类 ， 它 可 以 使 该 过 程 更 简单 。 传 入 一 个 类 型 或 函数 
《用 于 生成 字典 各 皇权 所 使 用 的 默认 值 ) 即 可 创建 


出 一 个 defaultdict: 








from collections import defaultdict 


by_letter = defaultdict(1ist) 
for word in words: 
by_letter[word[0]1].append(word) 


defaultdict 的 初始 化 器 只 需要 一 个 可 调用 对 象 
(例如 各 种 函数 ) ， 并 不 需要 明确 的 类 型 。 因 此 ， 
如 果 你 想 要 将 默认 值 设 置 为 4， 只 需 传 入 一 个 能 够 
返回 4 的 冰 数 即 可 : 


counts = defaultdict(lambda: 4) 





字典 键 的 有 效 类 型 


虽然 字典 的 值 可 以 是 任何 Python 对 象 ， 但 键 必 
须 是 不 可 变 对 象 ， 如 标量 类 型 (整数 、 浮 点 数 、 字 
符 串 ) 或 元 组 《元 组 中 的 所 有 对 象 世 必须 是 不 可 变 
的 ) 。 这 里 的 术语 是 可 哈 希 性 (hashability) 
“。 通 过 hash 函 数 ， 你 可 以 判断 某 个 对 象 是 否 是 可 哈 
希 的 〈 即 可 以 用 作 字 和 典 的 键 ) : 


In [459]: hash('string') 
Out[459]: -9167918882415130555 











In [460]: hash((1, 2, (2, 3))) 
Out[460]: 1097636502276347782 


In [461]: hash((1，2，[2，3])) # 这 里 会 失败 ， 因 为 列表 是 可 变 的 
TypeError Traceback (most rece 
<ipython-input-461-800cd1i4ba8be> in <module>() 

----> 1 hash((1，2，[2，3])) # 这 里 会 失败 ， 因 为 列表 是 可 变 的 
TypeError: unhashable type: 'list' 





如 果 要 将 列表 当做 键 ， 最 简单 的 办 法 就 是 将 其 
转换 成 元 组 : 


In [462]: d= {} 

In [463]: d[tuple([1, 2, 3])] = 5 
In [464]: d 

Out[464]: {(1, 2, 3): 5} 


集合 


集合 (set) 是 由 唯一 元 系 组 成 的 无 序 集 。 你 可 
以 将 其 看 成 是 只 有 键 而 没有 值 的 字典 。 集 合 的 创建 
方式 有 二 : set 图 数 或 用 大 括号 包 起 来 的 集合 字面 
量 : 
In [465]: set([2, 2, 2, 1, 3, 3]) 
Out[465]: set([1, 2, 3]) 
In [466]: {2, 2, 2, 1, 3, 3} 
Out[466]: set([1, 2, 3]) 
2 合 运 算 ， 如 并 、 交 、 关 以 
及 对 称 关 等 。 表 A-3 列 出 了 利用 的 集合 方法 : 
In [467]: a = {1，2，3，4，5} 
In [468]: b = {3, 4, 5, 6, 7, 8} 


In [469]:a|b # 并 (或 ) 
Out[469]: set([1, 2, 3, 4, 5, 6, 7, 8]) 


In [470]: a&b # 交 (与 ) 


Out[470]: set([3, 4, 5]) 


In [471]: a - b # 差 
Out[471]: set([1，2]) 


In [472]: a Ab # 对 称 差 ( 异 或 ) 

Out[472]: set([1, 2, 6, 7, 8]) 

你 还 可 以 判断 一 个 集合 是 否 是 忆 一 个 集合 的 于 
集 ( 原 集合 包含 于 新 集合 ) 或 超 集 ( 原 集合 包含 新 
集合 ) : 


In [473]: aset = {1, 2, 3, 4, 5} 


/ 











NEL 


In [474]: {1, 2, 3}.issubset(a_set) 
Out[474]: True 


In [475]: a_set.issuperset({1, 2, 3}) 
Out[475]: True 


不 难看 出 ， 如 果 两 个 集合 的 内 容 相 等 ， 则 它们 
束 古 相等 的 : 


In [476]: {1, 2, 3} == {3, 2, 1} 
Out[476]: True 





表 A-3: Python 的 集合 运算 


函数 其 他 表示 法 说 明 

a.add(x) N/A 将 元 素 x 添 加 到 集合 a 

aremove(X) N/A 将 元 素 x 从 集合 a 中 删除 

a.union(b) alb a 和 b 全 部 的 唯一 元 素 

a.intersection(b) a&b a 和 b 都 有 的 元 素 

a.difference(b) a a 中 不 属于 b 的 元 素 
a.symmetric_difference(b) a 人 ^b a 或 b 中 不 同时 属于 a 和 b 的 元 素 
a.issubset(b) N/A 如 果 a 的 全 部 元 素 都 包含 于 b， 则 为 True 
a.issuperset(b) N/A 如 果 b 的 全 部 元 素 都 包含 于 a， 则 为 True 
a.isdisjoint(b) N/A 如 果 a 和 b 没 有 公共 元 素 ， 则 为 True 





列表 、 集 合 以 及 字典 的 推导 式 


列表 推导 式 是 最 受 欢 迎 的 Python 语言 特性 之 
一 。 它 使 你 能 够 非常 简洁 地 构造 一 个 新 列表 : 只 需 
一 条 简洁 的 表达 式 ， 即 可 对 一 组 元 素 进行 过 小 ， 并 
对 得 到 的 元 系 进行 转换 变形 。 其 基本 形式 如 下 : 


[expr for val in collection if condition] 


这 相当 于 下 和 面 这 段 for 循 环 : 


result = [|] 
for val in collection: 
if condition: 
result.append(expr) 


过 小 右 条 件 可 以 省 略 ， 只 留 下 表达 式 。 例 如 ， 
给 定 一 个 字符 串 列表 ， 我 们 可 以 小 除 长 度 小 于 等 于 


2 的 字符 串 ， 并 将 剩 下 的 字符 串 转 换 成 大 写字 母 形 
式 : 
In [477]: strings = ['a', 'as', "bat'，"car'， dove'"， "python' 
In [478]: [x.upper() for x in strings if len(x) > 2] 
Out[478]: ['BAT', 'CAR', 'DOVE', 'PYTHON'] 
集合 和 字典 的 推导 式 是 该 思想 的 一 种 自然 延 
伸 ， 它 们 的 语 读 差 不 多 ， 只 不 过 产生 的 是 集合 和 字 
典 而 已 。 字 典 推 寻 式 的 基本 形式 如 下 : 


dict_comp = {key-expr : value-expr for value in collection if 


集合 推导 式 跟 列表 推导 式 非 第 相似 ， 唯 一 的 区 
列 束 是 它 用 的 是 伦 括 写 而 个 是 方 括 写 : 


set_comp = {expr for value in collection if condition} 


跟 列表 推导 式 一 样 ， 集 合 和 字典 的 推 寻 式 也 痢 
只 是 语法 糖 而 已 ， 但 它们 确实 能 使 代码 变 得 更 容易 
读 写 。 骨 以 上 面 那 个 字符 串 列表 为 例 ， 假 设 我 们 想 
要 构造 一 个 集合 ， 其 内 容 为 原 列表 字符 串 的 各 种 长 
度 。 使 用 集合 推导 式 即 可 轻松 实现 此 功能 : 


In [479]: unique_lengths = {len(x) for x in strings} 























In [480]: unique_lengths 
Out[480]: set([1, 2, 3, 4, 6]) 


再 来 看 一 个 简单 的 字典 推 寻 式 范 例 。 我 们 可 以 


字符 串 创 建 一 个 指 加 其 列表 位 置 的 映射 天 


In [481]: loc_mapping = {val : index for index, val in enumera 


In [482]: loc _ mapping 
Out[482]: {'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'py 


实际 上 ， 该 字典 还 可 以 这 样 构造 : 


loc _ mapping = dict((val, idx) for idx, val in enumerate(strino 


依 我 看 ， 字 上 典 推 导 式 版 的 代码 要 更 短 也 更 清 
ff。 


注意 : 字典 和 集合 的 推导 式 是 最 近 才 加 入 到 
Python 的 全 2.7 和 Python 3.1+) 。 








嵌 套 列表 推 叶 式 


假设 我 们 有 一 个 由 男孩 名 列表 和 女孩 名 列表 组 
成 的 列表 即 列表 的 列表 ): 


In Co all data = [['Tom’ Es "Jefferson'， 'Andrew', 
[ Susie， 'Casey', 'Jill', 'Ana', 'Eva' 


这 些 名 字 可 能 是 从 多 个 文件 中 读 取出 来 的 ， 而 
县 区 | 和 男孩 女孩 的 名 字 分 开 。 现 在 ， 假 设 我 们 想 
要 找 出 带 有 两 个 以 上 〈 含 ) 字母 e 的 名 字 ， 并 将 它 








们 放 入 一 个 新 列表 中 。 我 们 当然 可 以 用 一 个 简单 的 
for 循 环 来 实现 : 


names_of_ interest = [] 

for names in all data: 
enough_es = [name for name in names if name.count('e') > 2 
names_of_interest.extend(enough_es) 


实际 上 ， 整 个 运算 过 程 完全 可 以 写成 一 条 髓 套 
列表 推导 式 ， 如 下 所 示 : 


In [484]: result = [name for names in all data for name in nan 
i If name.count('e') >= 2] 


In [485]: result 
Out[485]: ['Jefferson', 'Wesley', 'Steven', 'Jennifer', 'Steph 


乍 看 起 来 ， 磐 套 列表 推导 陈 确 实 不 太 好 理解 。 
推导 式 中 for 的 部 分 是 按 欧 和 套 有 顺序 排列 的 ， 而 过 滤 条 
件 则 还 古 跟 之 前 一 样 是 放 在 后 面 的 。 下 和 面 是 为 外 一 
个 例子 ， 将 一 个 由 整数 元 组 构成 的 列表 “局 平 化 ”为 
一 个 简单 的 整数 列表 : 


In [486]: some_ tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)] 
In [487]: flattened = [x for tup in some_ tuples for x in tup] 


In [488]: flattened 
Out[488]: [1, 2, 3, 4, 5, 6, 7, 8, 9] 


其 实 你 可 以 这 样 来 记 : 骨 套 for 循 环 中 各 个 for 
的 顺序 是 怎样 的 ， 网 套 推导 式 中 各 个 for 表 达 式 的 顺 
序 束 是 怎样 的 。 





flattened = [] 


for tup in some_tuples: 
for x in tup: 
flattened.append(x) 











你 可 以 编写 任意 多 层 的 内 套 ， 但 古 如 果 髓 套 超 
过 两 三 层 的 话 ， 可 能 你 就 得 思考 一 下 数据 结构 设计 
有 没有 问题 了 。 一 定 要 注意 上 面 那 种 语法 跟 * 列 表 
推导 式 中 的 列表 推导 式 ” 之 间 的 区 别 。 比 如 下 面 这 
条 语句 也 是 正确 的 ， 但 结果 不 同 : 


In [229]: [[x for x in tup] for tup in some_tuples] 











商 数 是 Python 中 最 主要 也 是 最 重要 的 代码 组 织 
和 复 用 手段 。 也 许 并 不 存在 拥有 超级 多 函数 的 东 
西 。 实 际 上 ， 我 严重 认为 大 部 分 程序 员 在 做 数据 分 
析 工 作 时 所 编写 的 函数 不 够 多 ! 从 前 面 的 例子 中 不 
难看 出 ， 函 效 是 用 def 关 键 字 声 明 的 ， 并 使 用 retum 
天 键 字 返回 : 


def my_function(x, y, z=1.5): 





return z * (x + y) 
else: 
return z / (x + y) 


同时 拥有 多 条 return 语 句 也 是 可 以 的 。 如 果 到 
达 函 数 末 尾 时 没有 过 到 任何 一 条 return 语 句 ， 则 返 
SNone。 


国 数 可 以 有 一 些 位 置 参数 〈positional) 和 一 些 
关键 字 参数 (keyword) 。 关 键 字 参数 通常 用 于 指 
定 默认 值 或 可 选 参数 。 在 上 面 的 函数 中 ，x 和 y 是 位 
置 参 数 ， 而 z 则 是 关键 字 参 数 。 也 就 是 说 ， 访 函数 
可 以 下 面 这 两 种 方式 进行 调用 : 

my_function(5, 6, z=0.7) 
my_function(3.14, 7, 3.5) 


疯 数 参数 的 主要 限制 在 于 ， 关键 字 参 数 必须 位 
于 位 置 参数 (如 果 有 的 话 ) 之 后 。 你 可 以 任何 顺序 
指定 关键 字 参 数 。 也 束 古 说 ， 你 不 用 死记 便 背 函数 
参数 的 顺序 ， 只 要 记得 它们 的 名 字 就 可 以 了 。 


命名 空间 、 作 用 域 ， 以 及 局 部 函数 


函数 可 以 访问 两 种 不 同 作 用 域 中 的 变量 : 全 局 
Cglobal) 和 局 部 〈local) 。Python 有 一 种 更 科学 的 
用 于 描述 变量 作用 域 的 名 称 ， 即 命名 空间 
Cnamespace) 。 任 何在 函数 中 赋值 的 变量 默认 都 
是 被 分 配 到 局 部 命名 空间 (local namespace) 中 
的 。 局 部 命名 空间 是 在 函数 被 调用 时 创建 的 ， 函 数 
参数 会 立即 填 入 该 命名 空间 。 在 函数 执行 完毕 之 
后 ， 局 部 命名 空间 就 会 被 销毁 〈 会 有 一 些 例外 的 情 
况 ， 具 体 请 参见 后 面 介 绍 财 包 的 那 一 节 ) 。 看 看 下 
面 这 个 函数 : 


def func( ) : 
a = [] 

















for i In range(5): 
a.append(i) 


调用 func0 之 后 ， 痛 完 会 创建 出 空 列表 a， 然 后 
添加 5 个 元 素 ， 最 后 a 会 在 该 函数 退出 的 时 候 被 销 
或 。 假 如 我 们 像 下 面 这 样 定义 a: 


a = 上 


def func( ) : 
for i In range(5): 
a.append(i) 


虽然 可 以 在 函数 中 对 全 局 变量 进行 赋值 操作 ， 
但 是 那些 变量 必须 用 global 关 键 字 声明 成 全 局 的 才 
行 : 








In [489]: a = None 


In [490]: def bind a _ variable( ): 
i global a 
a = [j 


..: bind a variable()™™? 


In [491]: print a 
[] 


警告 : 我 常常 建议 人 们 不 要 频繁 使 用 global 关 
键 字 。 因 为 全 局 变量 一 般 是 用 于 存放 系统 的 某 些 状 
态 的 。 如 果 你 发 现 自己 用 了 很 多 ， 那 可 能 就 说 明 得 
要 来 点 儿 面 问 对 象 编程 〈 即 使 用 类 ) 。 


可 以 在 任何 位 置 进 行 函 数 声明 ， 即 使 是 局 部 辐 
数 〈 在 外 层 函 数 被 调用 之 后 才 会 被 动态 创建 出 来 ) 
也 是 可 以 的 : 
def outer_function(x, y, Zz): 
def inner_function(a, b, c): 


pass 
pass 


在 上 面 的 代码 中 ，inner_function 在 





outer_function 被 调用 之 前 是 不 存在 的 。 只 要 
outer_function 结 束 执 行 ， 则 inner_function 将 会 立即 


航 销毁 。 


各 个 刻 套 的 内 层 函 数 可 以 访问 其 上 层 函 数 的 局 
部 命名 空间 ， 但 不 能 绑 定 新 变量 。 我 将 在 讲解 财 包 
的 时 候 再 对 此 问题 进行 讨论 。 


严格 意义 上 来 说 ， 所 有 函数 都 是 某 个 作用 域 的 
人 这 个 作用 域 可 能 刚好 就 是 模块 级 的 作用 
域 。 


返回 多 个 值 
在 我 第 一 次 用 Python 编程 时 (之 前 已 经 习惯 了 


Java 和 C++) ， 最 辟 欢 的 一 个 功能 是 : 函数 可 以 返 
回 多 个 值 。 下 面 是 一 个 简单 的 例子 : 











在 数据 分 析 和 其 他 科学 计算 应 用 中 ， 你 会 友 现 
自己 常 第 这 么 干 ， 因 为 许多 函数 部 可 能 会 有 多 个 输 
出 (在 该 函数 内 部 计算 出 的 数据 结构 或 其 他 辅助 数 














据 ) 。 如 于 回忆 一 下 本 章 早 前 讲 过 的 元 组 打包 和 拆 
包 功 能 ， 你 可 能 会 明白 这 到 撒 是 怎么 一 回 事 : 该 函 
数 其 实 只 返回 了 一 个 对 象 ， 也 惑 是 一 个 元 组 ， 最 后 
该 元 组 会 被 拆 包 到 各 个 结果 变量 中 。 在 上 面 的 例子 
中 ， 我 们 还 可 以 这 样 写 : 


return _ value = f() 


不 难看 出 ， 这 里 的 return_value 将 会 是 一 个 含 
3 个 返回 值 的 三 元 元 组 。 此 外 ， 还 有 一 种 非常 具有 
吸引 力 的 多 值 返 回 方式 一 一 返回 字典 : 











def fF() 


f(): 

a=5 

b = 6 

C = 7 

return {'a :a, 'b' : b, 'c' :; c} 
函数 亦 为 对 象 

由 于 Python 函数 都 是 对 象 ， 因 此 ， 在 其 他 语言 
中 较 难 表达 的 一 些 设计 思想 在 Python 中 就 要 简单 很 


多 了 。 假 设 我 们 有 下 面 这 样 一 个 字符 串 数 组 ， 希 望 
对 其 进行 一 些 数据 清理 工作 并 执行 一 堆 转 换 : 


states = [' Alabama ', 'Georgia!', 'Georgia', 'georgia', 'F10 
'south carolina##', 'West virginia?'] 


不 管 是 谁 ， 只 要 处 理 过 由 用 户 提交 的 调查 数 


据 ， 束 能 明白 这 种 乱七八糟 的 数据 是 怎么 一 回 事 。 
为 了 得 到 一 组 能 用 于 分 析 工 作 的 格式 统一 的 字符 
器 ， 需 要 做 很 多 事情 : 去 除 空 日 仁 、 删 除 各 种 标 反 
符号 、 正 确 的 大 写 格式 等 。 乍 一 看 上 去 ， 我 们 可 能 
会 写 出 下 面 这 样 的 代码 : 


import re # 正则 表达 式 模 了 瑞 





def clean_strings(strings ) : 

result = 上 [j 

for value in strings: 
value = value.strip() 
value = re.sub('[!#?]'，''，vVvalue) # 移 除 标 点 符号 
value = value.title() 
result.append(value) 

return result 


最 终结 果 如 下 所 示 : 


In [15]: clean_ strings(states) 

Out[15]: 
['Alabama' 
'Georgia 
'Georgia' 
'Georgia' 
'Florida', 
'South Carolina', 
'West Virginia'] 


其 实 还 有 男 外 一 种 不 错 的 办 法 : 将 需要 在 一 
给 定 字 符 串 上 执行 的 所 有 运算 做 成 一 个 列表 : 


def remove_punctuation(value): 
return re.sub('[!#?]', '', value) 


~ ~ ~ ~ 








clean_ops = [str.strip, remove_punctuation, str.titlel] 


def clean_ strings(strings, ops): 
result = [] 
for value in strings: 
for function in ops: 
value = function(value) 
result.append(value) 
return result 


然后 我 们 残 有 了 : 


In [22]: clean_ strings(states, clean ops) 

Out[22]: 

['Alabama' 
'Georgia 
'Georgia 
'Georgia 
'Florida', 
'South Carolina', 
'West Virginia'] 


这 种 多 函数 模式 使 你 能 在 很 高 的 层次 上 轻松 修 
改 字 符 串 的 转换 方式 。 此 时 的 clean_strings 也 更 具 可 
复 用 性 ! 


还 可 以 将 函数 用 作 其 他 函数 的 参数 ， 比 如 内 置 
的 map 函 数 ， 它 用 于 在 一 组 数据 上 应 用 一 个 函数 : 


In [23]: map(remove_punctuation, states) 
Out [23]: 

[' Alabama '",， 

"Georgia '， 

"Georgia '， 

"georgia '， 

"FLOrIda'， 

'south carolina', 

'West virginia'] 





~ ~ ~ ~ 








匿名 (ambda) 函数 


Python 有 有 一 种 匀称 为 匿名 函数 或 lambda 孙 数 的 
东西 ， 这 其 实 是 一 种 非常 简单 的 函数 : 仅 由 单条 语 
句 组 成 ， 该 语句 的 结果 就 是 返回 值 。 它 们 是 通过 
lambda 关 键 字 定义 的 ， 这 个 关键 字 没 有 别 的 含义 ， 
仅仅 是 说 “我 们 正在 声明 的 是 一 个 匿名 函数 ”。 


def short_function(x): 
return x * 2 











equiv_anon = lambda x: x * 2 


本 书 其 余部 分 一 般 将 其 称 为 lambda 函 数 。 它 们 
在 数据 分 析 工 作 中 非常 方便 ， 因 为 你 会 发 现 很 多 数 
据 转 换 函 数 都 以 函数 作为 参数 的 。 直 接 传 入 lambda 
函数 比 编 写 完 整 函 数 声 明 要 少 输入 很 多 字 (也 更 清 
蜥 )， 甚 至 比 将 lambda 函 数 赋值 给 一 个 变量 还 要 少 
输入 很 多 字 。 看 看 下 面 这 个 简单 得 有 些 傻 的 例子 : 


def apply_to_ list(some_ list, f): 
return [f(x) for x in some_list] 














ints = [4, 0, 1, 5, 6] 
apply_to_list(ints, lambda x: x * 2) 


虽然 你 可 以 直接 编写 [x *2for x in ints]， 但 是 这 
里 我 们 可 以 非常 轻松 地 传 入 一 个 目 定 义 运算 给 
apply_to_list 疯 数 。 





再 来 看 态 外 一 个 例子 。 假 设 有 一 组 字符 串 ， 你 
想 要 根据 各 字符 溃 不 同 字母 的 数量 对 其 进行 排序 : 


In [492]: strings = ['foo', 'card', 'bar', 'aaaa', 'abab'] 


这 里 ， 我 们 可 以 传 入 一 个 lambda 函 数 到 列表 的 
sort 方 法 : 








In [493]: strings.sort(key=lambda x: len(set(1list(x)))) 


In [494]: strings 
Out[494]: ['aaaa', 'foo', 'abab', 'bar', "card '] 


注意 : lambda 函数 之 所 以 会 被 称 为 匿名 函数 ， 
原因 之 一 束 是 这 种 函数 对 象 本 身 是 没有 提供 名 称 属 
性 的 。 


闭 包 : 返回 函数 的 函数 


闭 包 (closure) 不 是 什么 很 可 怕 的 东西 。 如 果 
用 对 了 地 方 ， 它 们 其 实 可 以 非常 强大 ! 简 而 言 之 ， 
闭 包 束 是 由 其 他 函数 动态 生成 并 返回 的 函数 。 其 关 
键 性 质 是 ， 被 返回 的 冰 数 可 以 访问 其 创建 者 的 局 部 
命名 衬 间 中 的 变量 。 下 面 是 一 个 非 篆 简单 的 例子 : 


def make_closure(a): 
def closure() : 














print('I Know the secret: %d' % a) 
return closure 


closure = make_ closure(5) 


闭 包 和 标准 Python 函数 之 间 的 区 别 在 于 : 即使 
其 创建 者 已 经 执行 完毕 ， 闭 包 仍 能 继续 访问 其 创建 
者 的 局 部 命名 空间 。 因 此 ， 在 上 面 这 种 情况 中 ， 返 
回 的 闭 包 将 可 打印 出 "I know the secret:5"。 虽然 闭 
包 的 内 部 状态 (在 本 例 中 ， 只 有 值 a) 一 般 都 是 音 
态 的 ， 但 也 允许 使 用 可 变 对 象 〈( 如 字典 、 和 集合 、 列 
表 等 可 以 被 修改 的 对 象 ) 。 例 如 ， 下 面 这 个 函数 可 
以 返回 一 个 能 够 记录 其 参数 〈 曾 经传 入 的 一 切 参 
数 ) 的 函数 : 


def make_watcher() : 
have_seen = {} 





def has_been_seen(x): 
if x in have_seen: 
return True 
else: 
have_seen[x] = True 
return False 


return has_been_seen 


对 一 组 整数 使 用 该 函数 ， 可 以 得 到 : 
In [496]: watcher = make watcher() 
In [497]: vals = [5, 6, 1, 5, 1, 6, 3, 5] 


In [498]: [watcher(x) for x in vals] 
Out[498]: [False, False, False, True, True, True, False, Truel 


但 是 要 注意 一 个 技术 限制 ， 虽然 可 以 修改 任何 
内 部 状态 对 象 〈 比 如 癌 字 典 添加 键 值 对 〉 ， 但 不 能 








绑 定 外 层 函 数 作用 域 中 的 变量 。 一 个 解决 办 法 旦 : 
修改 字典 或 列表 ， 而 不 是 绑 定 变量 。 


def make_counter(): 
count = [0] 
def counter(): 
# 增加 并 返回 当前 的 count 
count[0] += 1 
return count[0] 
return counter 





counter = make_counter() 


你 可 能 会 想 ， 这 a 到底 有 什么 用 。 在 实际 工作 
中 ， 你 可 以 编写 带 有 大 量 选 项 的 非 第 一 般 化 的 函 
数 ， 然 后 再 组 交 出 更 简单 更 专门 化 的 函数 。 下 面 这 
个 例子 中 创建 了 一 个 字符 串 格式 化 函数 : 
def format_and_pad(template, space): 


def formatter(x): 
return (template % x).rjust(space) 























return formatter 


然后 ， 你 可 以 创建 一 个 始终 返回 15 位 字符 串 的 
浮 反 数 格式 化 副 ， 如 下 所 示 : 


In [500]: fmt = format_and_pad('%.4f', 15) 


In [501]: fmt(1.756) 
Out[5061]: ， 1.7560' 


如 果 多 学 一 些 Python 面 同 对 象 编程 方面 的 知 
识 ， 你 束 会 发 现 这 种 模式 其 实 也 能 用 类 来 实现 ( 虽 





然 会 更 吗 一 点 ) 
扩展 调用 语法 和 *args、**kwargs 


在 Python 中 ， 函 数 参数 的 工作 方式 其 实 很 简 
单 。 当 你 编写 func(a,b,c,d=some,e=value) 时 ， 位 置 和 
关键 字 参 数 其 实 分 别 是 被 打包 成 元 组 和 字典 的 。 扬 
数 实际 接收 到 的 是 一 个 元 组 args 和 一 个 字典 
kwargs， 并 在 内 部 完成 如 下 转换 : 


a, b, c = args 
d = kwargs.get('d', d_default_value) 
e = kwargs.get('e', e_default_value) 


一 切 痢 是 在 磅 后 悄悄 友 生 的 。 当 然 ， 它 还 会 
执行 一 些 错 误 检 查 ， ”还 允许 你 将 位 置 参 数 当成 天 键 
字 参 数 那 样 进行 指 定 〈 即 使 它们 在 浮 数 定义 中 并 不 
是 关键 字 参 数 ) 。 


def say_hello_ then _ call f(f, *args, **kwargs): 
print 'args is', args 
print "kwargs is', kwargs 
print("Hello! Now I'm going to call %s" % f) 
return f(*args, **kwargs) 











def g(x, y, z=1): 
return (x + y)/z 


然后 ， 如 果 我 们 通过 say_hello_then_call_f 调 用 
2; 就 会 得 到 | 


In [8]: Ssay_hello then call f(g, 1, 2, z=5.) 

args is (1, 2) 

kwargs is {'z': 5.0 

Hello! Now I'm going to call <function g at Ox2dd5cf8> 
Out[8]: 0.6 


何 里 化 ， 部 分 参数 应 用 


柯 里 化 (currying 是 一 个 有 趣 的 计算 机 科学 
术语 ， 它 指 的 是 通过 “部 分 参数 应 用 ”(partial 
argument application) 从 现 有 函数 派生 出 新 函数 的 
技术 。 假 设 我 们 有 一 个 执行 两 数 相 加 的 简单 函数 : 


def add_numbers(x, y): 
return x + y 


通过 这 个 函数 ， 我 们 可 以 派生 出 一 个 新 的 只 有 
一 个 参数 的 函数 -add_five， 它 用 于 对 其 参数 加 
5: 











add five = lambda y: add numbers(5, y) 


add_numbers 的 第 二 个 参数 称 为 “ 柯 里 化 
的 ”curried) 。 这 里 没什么 特别 花哨 的 东西 ， 因 为 
我 们 其 实 就 只 是 定义 了 一 个 可 以 调用 现 有 函数 的 新 
为 数 而 已 。 内 置 的 functools 模 块 可 以 用 partial 函 数 将 
此 过 程 简化 : 


from functools import partial 
add_five = partial(add numbers, 5) 





在 讨论 pandas 和 时 间 序 列 数据 时 ， 我 们 将 会 用 
该 技术 去 创建 专门 的 数据 序列 转换 函数 : 


# 计算 时 间 序 列 x 的 60 日 移动 平均 


ma60 = lambda x: pandas.rolling mean(x, 60) 





# 计算 data 中 所 有 时 间 序 列 的 60 日 移动 平均 
data.apply(ma60) 


能 以 一 种 一 致 的 方式 对 序列 进行 迁 代 【〔 比 如 列 
表 中 的 对 象 或 文件 中 的 行 ) 是 Python 的 一 个 重要 特 
扩 。 这 走 通 过 一 种 叫做 迭代 喜 协 议 (iterator 
protocol， 它 是 一 种 使 对 象 可 迭代 的 通用 方式 ) 的 
方式 实现 的 。 比 如 谨 ， 对 字典 进行 迭代 可 以 得 到 其 
所 有 的 键 : 


In [502]: some_ dict = {'a': 1, 'b': 2, 'c': 3} 





In [503]: for key in some_dict: 
ee print key, E10 
ac b 





当 你 编写 for key in some_dict 时 ，Python 解 释 吉 
首先 会 答 试 从 some_dict 创 建 一 个 迭代 器 ; 


In [504]: dict_iterator = iter(some_dict) 


In [505]: dict_ iterator 
Out[505]: <dictionary-keyiterator at Ox10a0a1578> 


和 欠 代 露 是 一 种 特殊 对 象 ， 它 可 以 在 诸如 for 循 环 
之 类 的 上 下 文中 辣 Python 解 释 右 输送 对 象 。 大 部 分 
能 接受 列表 之 类 的 对 象 的 方法 也 都 可 以 接受 任何 可 
欠 代 对 象 。 比 如 min、max、sum 等 内 置 方法 以 及 
list、tuple 等 类 型 构造 嚣 : 


In [506]: list(dict_iterator) 
Out[506]: ['a', 'c', 'b'] 


生成 右 〈generator) 是 构造 新 的 可 运 代 对 象 的 
一 种 简单 方式 。 一 般 的 函数 执行 之 后 只 会 返回 单个 
值 ， 而 生成 器 则 是 以 延迟 的 方式 返回 一 个 值 序 列 ， 
即 每 返回 一 个 值 之 后 暂停 ， 直 到 下 一 个 值 被 请 求 时 
再 继续 。 要 创建 一 个 生成 磺 ， 只 需 将 函数 中 的 
retumn 答 换 为 yeild 即 可 : 


def Squares(n=10 ) : 
for i in xrange(1, n + 1): 
print 'Generating squares from 1 to %d' % (n ** 2)'" E11 
yield i ** 2 


调用 该 生成 副 时 ， 没 有 任何 代码 会 被 立即 执 
人 

















In [2]: gen = squares() 


In [3]: gen 
Out[3]: <generator object squares at Ox34c8280> 


直到 你 从 该 生成 费 中 请 求 元 系 时 ， 它 才 会 开始 
执行 其 代码 : 








In [4]: for x in gen: 
print x, 


Generating squares from 0 to 100 
149 16 25 36 49 64 81 100 


假设 我 们 希望 找 出 “将 1 美元 〈 即 100 美 分 〉 史 
换 成 任意 一 组 人 硬币 ”的 所 有 唯一 方式 。 你 可 能 会 想 
出 很 多 种 实现 办 法 《包括 “已 找到 的 唯一 组 合 ” 的 保 
存 方式 ) 。 下 面 我 们 编写 一 个 生成 右 来 产生 这 样 的 
使 币 组 合 〈 硬 币 面额 用 整数 表示 ) : 


def make_change(amount, coins=[1, 5, 10, 25], hand=None): 

hand = [] if hand is None else hand 

If amount == 0: 
yield hand 

for coin in coins: 
# 确保 我 们 给 出 的 硬币 没有 超过 总 额 ， 且 组 合 是 唯一 的 
if coin > amount or (len(hand) > 0 and hand[-1] < coin 

continue 























for result in make_change(amount - coin, coins=coins, 
hand=hand + [coin]): 
yield result 


这 个 算法 的 细 市 并 不 重要 你 能 想 出 一 个 更 短 
扩 的 办 法 吗 ?) 。 然 后 我 们 可 以 编写 : 


In [508]: for way in make_change(100, coins=[10, 25, 50]): 
i print way 

[10, 10, 10, 10, 10, 10, 10, 10, 10, 10] 

[25, 25, 10, 10, 10, 10, 10] 

[25, 25, 25, 25] 

[50, 10, 10, 10, 10, 10] 

[50, 25, 25] 

[50, S50] 


In [509]: len(list(make_change(100))) 


out[5909]: 242 


生成 蓝 表 达 式 


生成 器 表达 式 (generator expression ) 是 构造 
生成 器 的 最 简单 方式 。 生 成 右 也 有 一 个 类 似 于 列 
表 、 字 典 、 集 合 推导 式 的 东西 ， 其 创建 方式 为 ， 把 
列表 推导 陈 两 端的 方 括 亏 改 成 圆 括 亏 : 


In [510]: gen = (x ** 2 for x in xrange(100)) 





In [511]: gen 
Out[511]: <generator object <genexpr> at 0x10a0a31e0> 


它 跟 下 面 这 个 见长 得 多 的 生成 器 是 完全 等 价 











的 : 


def _make_gen( ) : 
for x in xrange(100): 
yield x ** 2 
gen = _make_gen() 


生成 费 表 达 式 可 用 于 任何 接受 生成 费 的 Python 
也 数 : 


In [512]: sum(x ** 2 for x in xrange(100)) 
Out[512]: 328350 


In [513]: dict((i, i **2) for i in xrange(5)) 
Out[513]: {0: 0, 1: 1, 2: 4, 3: 9, 4: 16} 


itertools 模 块 


标准 库 itertools 模 块 中 有 一 组 用 于 许多 种 见 数 
据 算 法 的 生成 器 。 例 如 ，groupby 可 以 接受 任何 序 
列 和 一 个 函数 。 它 根据 函数 的 返回 值 对 序列 中 的 连 
续 元 素 进行 分 组 。 下 面 是 一 个 例子 : 


In [514]: import itertools 
In [515]: first_letter = lambda x: x[0] 
In [516]: names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'S 


In [517]: for letter, names in itertools.groupby(names, first_ 
本 print letter，1ist(names) # names 是 一 个 生成 器 

['Alan', 'Adam'] 

['Wes', 'Will'] 

['Albert ' ] 

[' Steven ' 


MA 三 大 





表 A-4 中 列 出 了 一 些 我 经 名 用 到 的 itertools 函 


表 A-4: 一 些 常用 的 itertools 函 数 





函数 说 明 

imap(func, *iterables) 内 置 函数 map 的 生成 器 版 ， 将 func 应 用 于 参数 序列 的 各 个 
打包 元 组 

ifilter(func, iterable) 内 置 函 数 filter 的 生成 器 版 ， 当 func(x) 为 True 时 输出 元 素 x 

表 A-4: 一 些 常用 的 itertools 函 数 ( 续 ) 

函数 说 明 


combinations(iterable, k) 生成 一 个 由 iterable 中 所 有 可 能 的 k 元 元 组 组 成 的 序列 (不 
考虑 顺序 ) 


permutations(iterable, k) 生成 一 个 由 iterable 中 所 有 可 能 的 k 元 元 组 组 成 的 序列 ( 考 
虑 顺序 ) 


groupby(iterable[, keyfund]) 为 每 个 唯一 键 生成 一 个 (key, sub-iterator) 。 





注意 : 许多 在 Python 2 (itertools) 中 产生 列表 
的 内 置 函 数 〈 如 zip、map、tfilter 等 ) ， 在 Python 3 
中 都 被 换 成 了 其 生成 器 版 。 


文件 和 操作 系统 


本 书 的 代码 示例 大 多 使 用 诸如 pandas.read_csvV 
之 闫 的 局 级 工具 将 磁盘 二 的 数据 文件 恋人 Python 煞 
据 结 构 。 但 我 们 还 是 需要 了 人 解 一 些 有 关 Python 文 件 
处 理 方面 的 基础 知识 。 好 在 它 本 来 就 很 简单 ， 这 也 
是 Python 在 文本 和 文件 处 理 方面 的 如 此 流行 的 原因 
之 一 ， 


为 了 打开 一 个 文件 以 便 读 写 ， 可 以 使 用 内 置 的 
open 国 数 以 及 一 个 相对 或 绝对 的 文件 路 径 : 


In [518]: path = 'ch1i3/segismundo.txt' 








In [519]: f = open(path ) 


默认 情况 下 ， 文 件 是 以 只 读 模 式 GCT) 打开 
的 。 然 后 ， 我 们 就 可 以 像 处 理 列表 那样 来 处 理 这 个 
文件 句柄 ff 了， 比如 对 行进 行 迭 代 : 


for line In f: 
pass 


从 文件 中 取出 的 行 都 带 有 完整 的 行 结束 符 
CEOL) ， 因 此 你 常 第 会 看 到 下 和 面 这 样 的 代码 得 
到 一 组 没有 EOL 的 行 ) : 


In [520]: lines = [x.rstrip() for x in open(path)] 








In [521]: lines 

Out[521] : 

['Sue\xc3\xbia el rico en su riqueza,', 
'que m\xc3\xalis cuidados le ofrece;', 


'sue\xc3\xbia el pobre que padece', 
"SU miseria y su pobreza;', 


'sue\xc3\xbia el que a medrar empieza,', 
'sue\xc3\xbia el que afana y pretende,', 
'sue\xc3\xbia el que agravia y ofende,', 


了 
'y en el mundo, en conclusi\xc3\xb3n,', 
'todos sue\xc3\xblilan lo que son,', 
"aundue ninguno lo entiende.', 


2 


如 果 输 入 f =open(path,"w'")， 束 会 有 一 个 新 文件 
被 创建 在 ch13/segismundo.txt， 并 履 盖 掉 该 位 置 原 
表 A-5 列 出 了 所 有 可 用 的 文件 读 写 
员工。 


表 A-5: Python 的 文件 模式 

模式 ”说 明 

r 只 读 模 式 

w 只 写 模式 。 创 建新 文件 (删除 同名 的 任何 文件 人生!?) 

a 附加 到 现 有 文件 (如果 文件 不 存在 则 创建 一 个 ) 

[十 读 写 模式 

b 附加 说 明 某 模 式 用 于 二 进 制 文件 ， 即 rb' 或 'wb' 

U 通用 换行 模式 。 单 独 使 用 'U' 或 附加 到 其 他 读 模式 (如 'rU') 





译注 12: 这 的 “名 ”包括 路 径 。 


要 将 文本 写 入 文件 ， 可 以 使 用 该 文件 的 write 或 
writelines 方 法 。 例 如 ， 我 们 可 以 创建 一 个 无 空 行 版 
的 prof_mod.py 13， 如 下 所 示 :; 


In [522]: with open('tmp.txt', 'w') as handle: 
' handle.writelines(x for x in open(path) if len(x 


In [523]: open('tmp.txt').readlines() 
Out[523]: 

['Sue\xc3\xbia el rico en su riqueza, \n', 
'que m\xc3\xals cuidados le ofrece;\n', 
'sue\xc3\xbia el pobre que padece\n', 

"SU miseria y su pobreza;\n', 
'sue\xc3\xbia el que a medrar empieza,\n', 
'sue\xc3\xbia el que afana y pretende,\n', 
'sue\xc3\xbia el que agravia y ofende,\n', 
'y en el mundo, en conclusi\xc3\xb3n,\n', 
'todos sue\xc3\xbian lo que son,\n', 
'aunque ninguno lo entiende.\n'] 


表 A-6 列 出 了 一 些 最 常用 的 文件 方法 。 


表 A-6: 重要 的 Python 文件 方法 或 属性 




















7 厅 法 说 明 

read([size]) 以 字符 串 形 式 返 回 文件 数据 ， 可 选 的 size 参 数 用 于 说 明 读 取 的 字 节 数 
readlines([size]) ”将 文件 返回 为 行列 表 ， 可 选 参数 size 

write(str) 将 字符 串 写 入 文件 

close() 关闭 句柄 

flush() 清空 内 部 VO 缓 存 区 ， 并 将 数据 强行 写 回 磁盘 

seek(pos) 移动 到 指定 的 文件 位 置 (整数 ) 

tell() 以 整数 形式 返回 当前 文件 位 置 

closed 如 果 文 件 已 关闭 ， 则 为 True 








详 注 1: 这 里 只 是 作者 起 的 名 字 而 已 ， 不 必 介 怀 ， 





你 完全 可 以 给 它 起 个 “ 真 命 天 子 类 型 > 之 类 的 名 字 。 
其 实 它 是 一 个 要 学 和 逻 避 学 概念， 砚 是 沈 " 齐 于 一 
只 鸟 类 动物 ， 不 用 管 它 到 底 是 不 是 鸭子 ， 只 要 看 它 
像 不 像 蝎子 束 可 以 了 ”。 

译注 2: 也 了 束 是 定义 别名 。 

译注 3;， 在 函数 式 编程 中 ， 也 第 译作 惰性 求 值 。 
译注 4， 这 个 词 指 的 是 “不 能 修改 原 内 存 块 的 数 
据 *?。 也 就 是 说 ， 即 使 修改 操作 成 功 了 ， 也 只 是 创 
建 了 一 个 新 对 象 并 将 其 引用 赋值 给 原 变 量 而 已 。 
译注 5: 作者 用 的 比 我 现在 用 的 版 本 还 老 。 所 以 在 
阅读 本 书 的 过 程 中 有 些 例 子 的 计算 结果 不 一 定 跟 书 
上 的 完全 一 致 。 

译注 6: 分 子 也 可 以 的 。 

译注 7: 或 者 翻译 成 可 散 列 性 。 

译注 8: 应 该 是 ">="， 因 为 原文 是 "two and more"。 
译注 9: 注意 缩 进 ， 别 搞 成 递归 了 了。 

译注 10: 注意 这 里 的 有 逗 气 。 

译注 11: 应 该 放 到 for 循 环 之 前 ， 否 则 后 面 的 执行 结 
果 与 书 上 的 不 一 样 。 


译注 13: 应 该 是 segismundo.txt。 











